正则提取标签之 (?<content>[\s\S]*?)的语法讲解

以此网址为列 http://tieba.baidu.com/p/2376714043 标题、时间、邮箱 来讲解

标题我们需要采集 中间的内容

(?<content>[\s\S]*?)</content>

这种与 正则参数方式类似

下面讲下时间标签,因为时间标签很多,所以需要写个通配的格式,来循环匹配

时间格式 2013-06-06 22:14

正规正则表达式 格式 \d{4}-\d{2}-\d{2} \d{2}:\d{2}

这里不要问 为什么会这样写,如果看不明白的,可以看下正则的标准语法,

教程如下http://msdn.microsoft.com/zh-cn/library/ae5bf541(VS.80).aspx

最后 邮箱的正则标签写法也是一样的

标准邮箱正则表达式 [\w\-\.]+@[\w\-\.]+\.\w+

在我们的采集器里

如果文章内有多个邮箱 勾选循环匹配就可以全部采集到

正则提取标签之 (?&lt;content&gt;[\s\S]*?)的语法讲解

规则附件中 提供了,供大家学习参考·~~~~

正则例子附件下载

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
火车头

任务规则失效提醒功能

2024-1-22 22:10:11

火车头

运行采集器提示无法生成临时类的解决方法

2024-1-22 22:10:17

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索