您的位置:首页 > 新闻资讯 > 文章内容
网络爬虫问题的应对方式
来源: 作者:admin 时间:2021-02-19 10:21:31

  网络爬虫如果出现了ip问题,我们应该要怎么应对?动态页面与静态页面的处理又有什么不同?

网络爬虫问题的应对方式

  动态页面的反爬虫上述的几种情况大多都是出现在静态页面,也有部分网站,我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。

  能够直接模拟ajax请求获取数据固然是极好的,但是有些网站把ajax请求的所有参数全部加密了。我们根本没办法构造自己所需要的数据的请求。我这几天爬的那个网站就是这样,除了加密ajax参数,它还把一些基本的功能都封装了,全部都是在调用自己的接口,而接口参数都是加密的。遇到这样的网站,我们就不能用上面的方法了,我用的是selenium+phantomJS框架,调用浏览器内核,并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面,全部都可以模拟,不考虑具体的请求和响应过程,只是完完整整的把人浏览页面获取数据的过程模拟一遍。

  不同的网站情况,大家的处理方式也会有所调整,这是需要大家看情况应对的。


相关文章内容简介
推荐阅读
  • 28 2020-04
    代理ip对网络数据整理的帮助

    网络数据是非常庞大的,就算只是一个网站,储存的数据量也是非常多的,并不是光靠人力就能够记录下来。

  • 28 2020-10
    购买的代理ip无法连接?

    很多人都会通过代理服务商来选择ip代理来使用,在大家成功提取出来了代理IP,发现都连接不通是怎么一回事?

  • 31 2020-12
    爬虫顺利的ip使用

    如何能够在网络爬虫中顺利让自己的ip完成抓取?我们有以下两个方面需要做好,下面来一起看看吧。

  • 18 2020-05
    网络爬虫怎么提高效率?

    网络爬虫要提高效率,我们可以怎么办?爬虫要选择的ip代理,为什么万变ip具备优势呢?首先我们来看第一个问题:

  • 09 2020-12
    必要的ip修改器使用

    日常的网络换ip我们可以通过重启路由器来短暂获得新的ip资源,不过如果是持续的要用到代理ip,像网络补量工作,就要换ip工具的帮助了。

  • 11 2020-08
    好用的换ip软件是怎么样的?

    网络换ip通过代理ip是最为方便的一个操作,很多用户都会选择代理服务器来使用。