在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能
一.二级代理功能
二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置:
1.设置 [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。
这里的[访问地址]一般使用的是你要采集的目标站的地址,[返回字符] 用该地址正常访问时返回的源码
2.设置好步骤后,就可以选择使用[固定代理]还是[商业代理]了。
(1)固定代理:固定代理可以选择两种添加方式,
①点击[添加]按钮,手动填写ip以及相关信息
②若是大批量的IP,可以使用文本[导入]的方式,如下图文本中格式。如果是有用户名密码,格式为:user:paaword@58.218.200.228:9053。若无,如下图正常的IP格式即可。一行一个分割IP。
然后点击代理验证,验证IP的是否可用。
(2)[商业代理]:商业代理是基于付费代理的api来获取IP的。需要您从网上购买代理IP的api来使用,这里介绍下使用过程中的注意事项:
①请求网址:您需要在您购买代理的付费网站生成api,该api要求访问一次可以获取一个IP,是文本格式,你用该api直接在浏览器中打开,显示如下图:
②代理数量:有效的代理IP数量,即同时请求几个代理IP供用户使用。比如写2,即两个代理Ip轮流使用,若是IP失效了,或者是封禁了,那么就会自动请求网址api,补充代理IP,保证同时可用的IP数量为2。
③代理更换方式:
定时:按照指定的时间间隔更换IP
定量:每个IP使用指定次数后,就更换IP
封禁:当采集到的内容出现指定的字符串后,则代表IP不可用,就更换IP。
以上方式进行更换的代理IP,若是勾选下面的选项,则会自动验证代理IP是否有效。
以上两种代理可以任选一种方式设置,设置好之后,可以设置一个空闲的端口,然后点击启动代理,接着在规则中调用该代理IP,保存后运行任务,接着就可以在http二级代理服务器中看到运行日志:
原文地址:http://faq.locoy.com/q-1312.html