火车采集器V9入门之内容采集 实例讲解

开始学习内容之前先了解下专业术语:

标签:标签是我们需要采集的内容类别,比如:标题、正文、作者……我们通过一个标签对同一类采集内容进行通用的规则设置。

(*):中变量的通用符号,如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个符号代替。

多页:有些情况下,需要采集一个页面对应的网址,图片等内容时,需要另外打开一个新的页面才能采集到这些信息,这些另外打开的页面则称为多页。


我们以中国低碳网为例,我们打开一篇文章看看需要哪些字段

火车采集器V9入门之内容采集 实例讲解

这样就可以确定我们需要设置的标签有:标题、时间、正文、来源等,我们逐个设置。

标题:打开网页源代码,找到标题的前后唯一字符串,使用前后截取的方式获取数据。(不一定只用一种方式,可以灵活选择,多打开几页查看一下是否相同)

火车采集器V9入门之内容采集 实例讲解
火车采集器V9入门之内容采集 实例讲解

正文

前字符串:

火车采集器V9入门之内容采集 实例讲解

后字符串:

火车采集器V9入门之内容采集 实例讲解
火车采集器V9入门之内容采集 实例讲解

时间:我们可以把原文的发布时间采集下来,也可以自行生成当前的时间,以便发布时使用。

分别设置如下

火车采集器V9入门之内容采集 实例讲解
火车采集器V9入门之内容采集 实例讲解

来源

火车采集器V9入门之内容采集 实例讲解
火车采集器V9入门之内容采集 实例讲解

为什么前字符串不是</div>?查找可以发现,这并不是唯一字符串,如果填写</div>
会影响采集结果。

来源网址:在采集的同时如果需要保存页面地址该怎么操作呢?源代码中并没有地址,这里就需要从网页地址中采取正则提取的方式。

火车采集器V9入门之内容采集 实例讲解

(?<content>[\s\S]*?) 里的 [\s\S]*? 的意思就是匹配任意字符,并返回结果的意思。 而^和$分别代表:“匹配输入字符串开始的位置”和“匹配输入字符串结尾的位置” ,你们get了吗?(正则语法小白们可以点此学习一下)

所有的标签都完成后我们来测试一下。

火车采集器V9入门之内容采集 实例讲解

可以看到正文里有很多不需要的链接和字符,重新回到标签编辑,对正文进行一些处理:

火车采集器V9入门之内容采集 实例讲解
火车采集器V9入门之内容采集 实例讲解

再测试一次,ok啦,我们还可以多换几个页面测试下,如果都没有问题就可以保存规则,嗖嗖嗖内容采起来~

火车采集器V9入门之内容采集 实例讲解

原文地址:http://faq.locoy.com/q-1244.html

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
火车头

火车采集器V9起始网址页即为内容页和标签循环采集功能使用

2024-1-22 22:20:31

火车头

火车采集器V9如何采百度关键词

2024-1-22 22:20:38

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索