实用软件资讯

火车头采集器教程:过滤、替换、去除无用信息

过滤、替换、去除无用信息 

  使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。


程序自带的htm标签排除功能已什么全面,可以大面积去除不需要的标签,比如第一个就可以去除所有的链接。

这里的排除支持(*),

这里支持参数型替换,注意这个是标准版有的功能。

需要注意的一点是:程序是先排除后替换。最后使用html标签排除。还有就是替换和排除里的顺序。

看上边的图,这里的替换和排除是有顺序的。可以自己调顺序的。

正在生成海报, 请稍候
火车头采集器教程:过滤、替换、去除无用信息
2010-04-07
过滤、替换、去除无用信息 使用过滤,替换,可以去除采集到的内容里我们不需要的东西,如干扰码,白色字等。 程序自带的htm标签排除功能已什么全面,可以大面积去除不需要
长按识别二维码
Techsir.com
希望看到您的想法,请您发表评论x