2024年详解火车头如何列表页如何采集JSON格式的数据

虽然已经是2024年,大家都在学python这一类工具进行爬虫采集,但是不得不说通过应用程序采集,也有其对应的优越性。

从我个人来讲,我写的python爬虫的效率,就远不如火车头,当然不是指早期的7.6这些,而是后面的9/10版本。

然而,现在很多网站都是通过json传递的数据,网络上搜索了一番,感觉虽然有人提了这方面的问题,但回答都是遮遮掩掩的,并不是很清楚。

当然,我看到很多回答说的是插件,所以,我们可以试试从插件入手。

一、火车头官方手册

下载地址:火车头手册.pdf

官方在手册中是,对插件做了简单的描述。

2024年详解火车头如何列表页如何采集JSON格式的数据

2024年详解火车头如何列表页如何采集JSON格式的数据

2024年详解火车头如何列表页如何采集JSON格式的数据

虽然官方在这里给了简单的说明,但是,看了感觉像没有看一样。

二、看官方的示例

官方给出了CSharp、PHP、Python三种语言的示例,说实话,Csharp的我没看明白。

好在,PHP版本的我大概看明白了,代码如下。

通过自带的插件管理,请求测试标签中,我们可以看到返回:

三、定义我们的返回

起初我想的是通过定义curl访问数据后,返回给LabelArray。

但是测试后发现不对,因为火车头已经处理了这一部分。

所以,我们只需要假定$LabelArray[‘Html’]是我们所需要采集的json数据。

设置Header

那么关于数据接口所要的参数,有两个方法可以设置。

1.在其他设置中

在具体的任务中,点击其他设置,Http请求设置:

2024年详解火车头如何列表页如何采集JSON格式的数据

对应的设置调整为目标站点的请求参数即可。

2.列表页Post

回到开头,我们遇到的困难是列表页没办法采集json数据,通过字符串截取也不行。

所以,我们也可以在列表页进行本项操作,点开网址采集的高级模式,在分页设置这里,请求方法选择POST,对应的填入自己的参数即可。

2024年详解火车头如何列表页如何采集JSON格式的数据

以上两个设置Header的方法,前提是在其他设置中,Http请求勾选了我们的PHP插件。

2024年详解火车头如何列表页如何采集JSON格式的数据

四、再次定义我们的返回

在以上代码中,我们假定列表数据来自json数据的’list’,所以$data = $json[‘list’];

随后我们遍历这个list,假定docTitle为标题,apiUrl为链接,我们拼接为A标签,即:

最后,$LabelArray[‘Html’] = $newData 即可,系统原则上来说会自动从中提取出链接。

到此,我们就完成了火车头采集器爬取json列表页,希望能对您有所帮助。

原创文章,作者:蓝洛水深,如若转载,请注明出处:https://blog.lanluo.cn/12539

(0)
蓝洛水深的头像蓝洛水深管理员
上一篇 2024年1月24日 下午4:13
下一篇 2024年2月7日 上午10:40

相关推荐

发表回复

登录后才能评论
联系QQ