您的位置:首页 > 新闻资讯 > 文章内容
网络爬虫问题的应对方式
来源: 作者:admin 时间:2021-02-19 10:21:31

  网络爬虫如果出现了ip问题,我们应该要怎么应对?动态页面与静态页面的处理又有什么不同?

网络爬虫问题的应对方式

  动态页面的反爬虫上述的几种情况大多都是出现在静态页面,也有部分网站,我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。

  能够直接模拟ajax请求获取数据固然是极好的,但是有些网站把ajax请求的所有参数全部加密了。我们根本没办法构造自己所需要的数据的请求。我这几天爬的那个网站就是这样,除了加密ajax参数,它还把一些基本的功能都封装了,全部都是在调用自己的接口,而接口参数都是加密的。遇到这样的网站,我们就不能用上面的方法了,我用的是selenium+phantomJS框架,调用浏览器内核,并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面,全部都可以模拟,不考虑具体的请求和响应过程,只是完完整整的把人浏览页面获取数据的过程模拟一遍。

  不同的网站情况,大家的处理方式也会有所调整,这是需要大家看情况应对的。


相关文章内容简介
推荐阅读
  • 27 2020-11
    代理ip工具解决爬虫限制

    想要快速的获取网络数据,爬虫是大家都会优先选择的一个方式,既然要做爬虫,那么解决限制就是一个重要问题。

  • 11 2020-11
    万变ip代理带来满意的体验

    很多用户都很纠结到底代理ip平台怎么选择好,秉着提升产品实用性和实现资源可用率最大化这两大初衷,万变ip软件能够带来满意的ip代理使用体验。

  • 06 2020-08
    代理ip的基本选择方向

    使用换ip软件修改ip地址可以很简单,只要大家找到一款合适的代理ip软件,根据使用情况就能够开始你的代理服务。不过在我们选择的时候,有些操作是需要关注的。

  • 14 2020-08
    重启路由来改ip

    除了代理ip能够切换ip地址之外,我们还能够通过传统的一个办法来改ip,那就是重启路由器。

  • 04 2021-03
    在线代理服务器能够提供的便利

    修改ip与网络数据抓取之间的联系是很关键的,通过代理ip,我们能够获取到什么便捷地方呢?

  • 29 2018-10
    掌握http代理ip软件的使用

    如果你还在手动换ip,那么是时候要给自己的效率升一个级别了,现在已经有了可以通过软件来更改ip的操作了。