首页
关于
Search
1
pyinstaller打包小记
213 阅读
2
经典的execjs打开js编码错误
197 阅读
3
screen
188 阅读
4
linux pyenv+nvm nodejs
175 阅读
5
gif验证码识别
125 阅读
javascript
python
spider
app逆向
other
登录
/
注册
Search
标签搜索
逆向
opencv
hliang
累计撰写
25
篇文章
累计收到
31
条评论
首页
栏目
javascript
python
spider
app逆向
other
页面
关于
搜索到
1
篇与
的结果
2021-12-23
爬取数据的优化与另类技巧
优化:爬虫访问一个url 比如小红书[https://www.baidu.com]这其中进行的操作会有: 分发cdn 网络域名解析ip 其中 域名解析IP可能需要几十上百毫秒每次 如果我们拿它的IP直接访问 每次就可以节省这个时间ping www.baidu.com 得到 14.215.177.39 访问这个IP就和直接访问域名一样(这个有些网站不适用 有的限制不允许这样)关于分发的cdn服务器有的IP拉黑可能是在cdn上的 然后一个网站可能有很多个cdn 服务器一个IP黑了 可以再访问下其他cdn的节点看能不能爬 这样可以实现IP利用率最大华推荐一个检测cdn IP的网站:https://www.17ce.com/ 站点也分3个pc端,m端,app端网站可能也有sitemap有的话可以访问它 得到某些好用的数据网站扫描有的可能有测试站点,扫描一下它的子域名 看看有没有啥好东东
2021年12月23日
40 阅读
0 评论
0 点赞