问题描述
实用scrapy做爬虫时候,因爬取过于频繁而被封IP,导致出现400等错误
解决方案
在访问网址中间休息1~2秒,在Scrapy项目的settings.py中,添加如下设置:
DOWNLOAD_DELAY = 2
RANDOMIZE_DOWNLOAD_DELAY = True
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
COOKIES_ENABLED = True