您的位置:首页 > 新闻资讯 > 文章内容
网络爬虫问题的应对方式
来源: 作者:admin 时间:2021-02-19 10:21:31

  网络爬虫如果出现了ip问题,我们应该要怎么应对?动态页面与静态页面的处理又有什么不同?

网络爬虫问题的应对方式

  动态页面的反爬虫上述的几种情况大多都是出现在静态页面,也有部分网站,我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。

  能够直接模拟ajax请求获取数据固然是极好的,但是有些网站把ajax请求的所有参数全部加密了。我们根本没办法构造自己所需要的数据的请求。我这几天爬的那个网站就是这样,除了加密ajax参数,它还把一些基本的功能都封装了,全部都是在调用自己的接口,而接口参数都是加密的。遇到这样的网站,我们就不能用上面的方法了,我用的是selenium+phantomJS框架,调用浏览器内核,并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面,全部都可以模拟,不考虑具体的请求和响应过程,只是完完整整的把人浏览页面获取数据的过程模拟一遍。

  不同的网站情况,大家的处理方式也会有所调整,这是需要大家看情况应对的。


相关文章内容简介
推荐阅读