火车采集——某些网站的案例(403拒绝访问)Permission denied….

火车头采集403错误

很多网站禁止了spider!因为….

火车的通用Agent识别字串是:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; GTB6; .NET CLR 2.0.50727; CIBA)

可以在以下文件看到:

User/Config.ini

UserAgent=Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; GTB6; .NET CLR 2.0.50727; CIBA)

改为

Baiduspider+(+http://www.baidu.com/search/spider.htm)

即可

如下图修改火车头http配置。

火车头采集403错误

类似文章