火车采集器V9：简单的文章采集示例

通过火车采集器官网的faq为例来说明采集器采集的原理和过程。
本例以 http://faq.locoy.com/qc-12.html演示地址，以火车采集器V9为工具进行示例说明。

（1）新建个采集规则
选择一个分组上右击，选择“新建任务”，如下图：

火车采集器V9：简单的文章采集示例
（2）添加起始网址

在这里我们需要采集 5页数据。

分析网址变量规律
第一页地址：http://faq.locoy.com/qc-12.html?p=1

第二页地址：http://faq.locoy.com/qc-12.html?p=2

第三页地址：http://faq.locoy.com/qc-12.html?p=3

由此我们可以推算出p=后的数字就是分页的意思，我们用[地址参数]表示：

所以设置如下:

火车采集器V9：简单的文章采集示例
地址格式：把变化的分页数字用[地址参数]表示。

数字变化：从1开始，即第一页；每次递增1，即每次分页的变化规律数字；共5项，即一共采集5页。

预览：采集器会按照上面设置的生成一部分网址，让你来判读添加的是否正确。

然后确定即可

（3）[常规模式]获取内容网址
常规模式：该模式默认抓取一级地址，即从起始页源代码中获取到内容页A链接。

在这里给大家演示用自动获取地址链接 +设置区域的方式来获取。

查看页面源代码找到文章地址所在的区域：

火车采集器V9：简单的文章采集示例

设置如下：

注：更详细的分析说明可以参考本手册：

操作指南 > 软件操作 > 网址采集规则 > 获取内容网址

火车采集器V9：简单的文章采集示例

点击网址采集测试，看看测试效果

火车采集器V9：简单的文章采集示例

（3）内容采集网址

以 http://faq.locoy.com/q-1184.html为例讲解标签采集

注：更详细的分析说明可以下载参考官网的用户手册。

操作指南 > 软件操作 > 内容采集规则 > 标签编辑

我们首先查看它的页面源代码，找到我们“标题”所在位置的代码：

导入Excle是跳出对话框~打开Excle出错 – 火车采集器帮助中心

分析得出：开头字符串为：
结尾字符串为：
数据处理——内容替换/排除：需要把- 火车采集器帮助中心给替换为空

火车采集器V9：简单的文章采集示例

内容标签的设置原理也是类似的，找到内容所在源码中的位置

火车采集器V9：简单的文章采集示例

分析得出：开头字符串为：
结尾字符串为：
数据处理——HTML标签排除：把不需要的A链接等过滤

火车采集器V9：简单的文章采集示例

再设置个“来源”字段

火车采集器V9：简单的文章采集示例

这样一个简单的文章采集规则就做好了，使用火车采集器并按照这个示例的步骤就可以进行其它类型数据采集的扩展啦。

原文地址：http://faq.locoy.com/q-1237.html

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

火车采集器V9：简单的文章采集示例

火车采集器V9标签组合功能介绍

如何使用火车采集器抓取手机APP的内容

{{userData.name}}已认证

相关文章：

火车采集器V9标签组合功能介绍

如何使用火车采集器抓取手机APP的内容

无法将类型"Gecko.GeckoNode"的对象强制转换为类型"Gecko.GeckoHtmElement"

尝试加载oracle客户端库出错

无效的URI：无法分析主机名

discuzX3.*官方接口发布,支付发布主题售价