您的位置:首页 > 新闻资讯 > 文章内容
爬虫有哪些操作需要注意?
来源:互联网 作者:admin 时间:2020-06-29 14:01:34

  代理ip能够让爬虫更加轻松实现,不过爬虫的时候,操作不当就会让爬虫程序暂停。有哪些操作是需要格外注意的?

爬虫有哪些操作需要注意

  1、在同一设备上有规律的访问和操作。

  爬虫的作用就是在短时间内抓取最多的信息,当同一台设备对目标网站进行频繁的访问、浏览查询等大量离散的行为,爬虫可能就会失效。

  2、访问的网页页面过于固定

  例如在航空公司的网站中爬取班次、价格、数量等核心信息,目标明确,只浏览这几个核心页面而不去访问其他的页面。

  3、robots 协议

  网站爬取规定在 robot 爬取协议中找到。在网站主域名后面写上 robot.txt 就能看见。这些协议声明了网站的哪些部分禁止自动爬取或者是爬虫被允许爬取某个网页的次数。

  4、获取网页的速度过快

  如果获取网页的速度太快了,就会面临被封禁或者产生“损害动产”的风险。可以采用限制下载速度,或者在两次下载之间添加延时,减缓爬虫爬取信息的速度。

  5、误入爬虫陷阱

  在有些网站会有动态生成界面内容,导致了产生无限多的见面,导致爬虫工作进展不顺。可以通过记录到达当前页面共经过了多少页面,设定爬虫的最大深度就不必在队列中添加网络链接了。

  除了代理ip之外,这些避免爬虫限制的操作也需要大家注意。


相关文章内容简介
推荐阅读