笔记:采集器user_agent参数设置,DXC插件user_agent设置方法

今天采集某个网站,反馈都是空白,仔细看了之后发现是因为返回的是302,而正常用户才能访问,如下图:

返回302

 

但是考虑到逻辑的相悖,所以用百度蜘蛛测试了一下,发现能正常获取:

20151030195202

因为我用的discuz的DXC采集插件,故而以下方法方式是以DXC采集插件为例。

起初我通过模仿用户测试了一下,发现获得的仍然是302:

20151030195432

 

连续用了几个user_agent都没有获取到内容后,不得已我觉得就模拟百度蜘蛛来获取,好在结果没让人失望,获取到了内容。

但这里提一下,DXC官方给的蜘蛛user_agent已经不适用了(https://www.56php.com/thread-7608-1-1.html):

20151030195753

使用后发现还是不能获取内容,所以我查了百度官方说明(https://help.baidu.com/question?prod_en=master&class=Baiduspider):

20151030195936

PC搜索完整UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)

20151030200059

成功获取玩完整内容,继续采集即可。

原创文章,作者:蓝洛水深,如若转载,请注明出处:https://blog.lanluo.cn/3532

(0)
蓝洛水深的头像蓝洛水深管理员
上一篇 2015年10月28日 下午6:06
下一篇 2015年11月5日 下午6:16

发表回复

登录后才能评论
联系QQ