我们在采集网页信息过程中经常遇到信息不在同一个页面,那就要使用多页功能,今天在这里以采集安居客小区信息为例讲解火车采集器V9的多页设置。因为主要讲解多页,案例中的其他设置略过!
我们要抓取的信息中有小区的房源数量数据,发现在网页源码中并没有此数据。通过抓包软件fiddler抓包分析可以获取到该数据的真实网址,参照下图:
通过网址可以发现一个ID参数“337684”,于是我们可在内容页源码中看能否查找到该ID值
通过搜索我们发现源码中存在这个值,那我们就可以通过这个值 在多页功能中拼接出房源数量数据的网址,参照下图:
首页我们要添加多页,在内容采集规则步骤中左侧下方有个关联多页,我们点击+号进行添加多页
获取多页网址和获取内容页网址原理一样,也是通过源码找出规则。因在内容页中并没有完整的该多页的链接,但可以采到网址中的ID参数,于是我们只需获取到ID即可,然后拼接出多页网址,参照下图:
起一个名称,保存多页,下一步我们就可以通过此页获取房源数量
添加标签,通过拼接的多页网址,分析获取数据规则,注意上图的数据来源,一定要选择关联多页。这样我们就可以通过多页功能获取到隐藏的房源数量信息了,你学会了吗?
安居客小区信息采集规则下载:http://bbs.locoy.com/spider-150900-1-1.html
原文地址:http://faq.locoy.com/q-1241.html