优化:
爬虫访问一个url 比如小红书[https://www.baidu.com]这其中进行的操作会有:
分发cdn 网络域名解析ip
其中 域名解析IP可能需要几十上百毫秒每次 如果我们拿它的IP直接访问 每次就可以节省这个时间
ping www.baidu.com 得到 14.215.177.39 访问这个IP就和直接访问域名一样(这个有些网站不适用 有的限制不允许这样)
关于分发的cdn服务器
有的IP拉黑可能是在cdn上的 然后一个网站可能有很多个cdn 服务器
一个IP黑了 可以再访问下其他cdn的节点看能不能爬 这样可以实现IP利用率最大华
推荐一个检测cdn IP的网站:https://www.17ce.com/
站点也分3个
pc端,m端,app端
网站可能也有sitemap
有的话可以访问它 得到某些好用的数据
网站扫描
有的可能有测试站点,扫描一下它的子域名 看看有没有啥好东东
评论 (0)