您的位置:首页 > 新闻资讯 > 文章内容
网络爬虫问题的应对方式
来源: 作者:admin 时间:2021-02-19 10:21:31

  网络爬虫如果出现了ip问题,我们应该要怎么应对?动态页面与静态页面的处理又有什么不同?

网络爬虫问题的应对方式

  动态页面的反爬虫上述的几种情况大多都是出现在静态页面,也有部分网站,我们需要爬取的数据是通过ajax请求得到,或者通过JavaScript生成的。首先用Firebug或者HttpFox对网络请求进行分析。如果能够找到ajax请求,也能分析出具体的参数和响应的具体含义,我们就能采用上面的方法,直接利用requests或者urllib2模拟ajax请求,对响应的json进行分析得到需要的数据。

  能够直接模拟ajax请求获取数据固然是极好的,但是有些网站把ajax请求的所有参数全部加密了。我们根本没办法构造自己所需要的数据的请求。我这几天爬的那个网站就是这样,除了加密ajax参数,它还把一些基本的功能都封装了,全部都是在调用自己的接口,而接口参数都是加密的。遇到这样的网站,我们就不能用上面的方法了,我用的是selenium+phantomJS框架,调用浏览器内核,并利用phantomJS执行js来模拟人为操作以及触发页面中的js脚本。从填写表单到点击按钮再到滚动页面,全部都可以模拟,不考虑具体的请求和响应过程,只是完完整整的把人浏览页面获取数据的过程模拟一遍。

  不同的网站情况,大家的处理方式也会有所调整,这是需要大家看情况应对的。


相关文章内容简介
推荐阅读
  • 28 2020-04
    代理ip对网络数据整理的帮助

    网络数据是非常庞大的,就算只是一个网站,储存的数据量也是非常多的,并不是光靠人力就能够记录下来。

  • 29 2018-10
    如何结合代理ip来防止爬虫被封?

    代理服务器的作用,很多用户了解的一知半点,并不是特别的了解,今天就给大家进行简单的介绍。特别是ip代理在爬虫方面的使用,我们是如何结合代理ip来防止爬虫被封掉的。

  • 09 2020-12
    网络代理ip软件派上用场的地方

    网络工作者会经常接触到代理服务器,现在的互联网开始进入大数据时代,使用代理IP访问网页真的安全吗?

  • 29 2018-10
    获取网络http代理资源

    网络ip资源可以从哪些地方获取?你知道现在我们网络上找到的那些http代理ip是怎么来的吗?下面我们来一同看看。

  • 30 2020-10
    用ip代理来替代进行网络访问

    网络获得代理ip的渠道有很多,光是从网络搜索就可以找到不同的代理ip服务商了。

  • 04 2020-06
    电脑浏览器设置ip代理

    在电脑浏览器中要使用代理ip我们可以怎么设置,下面万变ip以360浏览器为例子,向已购买代理ip套餐的用户展示如何设置。