爬虫设置间隔时间

该文章由 AnonymousUser在 2020年10月19日 21:48:00发布

设置访问时间间隔 很多网站的反爬虫机制都设置了访问间隔时间,一个IP如果短时间内超过了指定的次数就会进入“冷却CD”,所以除了轮换IP和user_agent 可以设置访问的时间间间隔长一点,比如每抓取一个页面休眠一个随机时间:

import time import random time.sleep(random.random()*3) 对于一个crawler来说,这是一个比较responsible的做法。 因为本来爬虫就可能会给对方网站造成访问的负载压力,所以这种防范既可以从一定程度上防止被封,还可以降低对方的访问压力。



共0条评论


    暂无评论


Leave A Comment