本地下载文件大小:24 MB
高速下载需优先下载高速下载器
ET采集(EditorTools 3)是一款高效的网站数据采集工具,做网站的朋友都了解,好的原创内容是百度收录最先考虑的,所以使用采集工具采集网络资源时,不仅仅要采集网站的内容,还要将别人的东西转变成自己的东西,小编为站长朋友推荐这款EditorTools 3采集器,它可以在无人看管的情况下,24小时监控目标,将需要的资源信息采集后,通过深度加工,转变成自己东西,而且它的采集能力并不仅限于文字采集,还可以对网站上的图片、音乐、视频、软件、文件文档、种子文件进行采集,软件非常适合无时间管理网站的站长朋友。
1、下载本站为您提供的EditorTools 3程序压缩包文件,软件免安装,只需将其解压便可以使用
2、解压目录下双击“ET采集3.exe”即可打开软件
如何使用ET采集3获取自动摘要
1、新建数据项,下图我们建立了一个名为“自动摘要”的数据项。
2、复制正文数据项的采集规则粘贴到自动摘要的规则里,勾选“去首尾空白”,设置截取字数。
3、建立自动摘要的数据整理组。
示例中第一条规则用于去除所有HTML标记,第二条规则过滤换行,第三条规则将连续的空白替换为一个空格。
4、在自动摘要数据项里关联整理组,然后点测试按钮进行测试。
5、从测试结果可以看到,我们想要的从正文自动截取生成摘要的功能已经实现了。
如何使用ET采集,采集起点小说网的文章?
1、在采集起点小说文章时,我们发现,文章网页的源代码文件里找不到正文文字,它是用一个JS脚本文件显示的正文,如图1:
(图1)
访问这个js文件,可以看到其中包含了文章正文,如图2:
(图2)
2、在不同的网页,包含我们所要采集的不同数据,它的结构如图3:
(图3)
3、要采集这类网站,我们需要用到ET的采集页功能,如图4:
(图4)
图4里的内容页,即从列表页获取的文章网址指向的网页,对于多数网站,我们所要采集的数据都在这个页面里。
具体操作如下:
第一步,设置内容页的访问下级规则
内容页的下级页面,也就是我们包含我们要采集正文的脚本网页,这里的“下级页面网址规则”和“下级页面网址合成”就用于从内容页访问脚本网页,如图5:
(图5)
设置这里时,请多用小榔头测试按钮确保采集的下级网址正确;并不要忘记,在“本页采集数据项”栏里选择要从本页采集的数据项;
第二步,新建采集页
点“+”号按钮,新建一个采集页,改名为“正文脚本页”,并保存,如图6:
(图6)
因为正文脚本页没有下级网页了,所以不需要设置它的下级页面网址;同时,记得在“本页采集数据项”栏里选择“正文”数据项,告诉ET,从本页采集正文数据。
至此采集页配置已经完成,其他设置和采集普通网页完全一样;唯一注意,正文数据项是从“正文脚本页”里采集的,设置它的数据采集规则时不要弄错了目标网页了,如图7:
(图7)
用户在采集淘宝等使用脚本显示内容的网站,或者用iframe框架包含其他页面的网站,以及需要从页面中的链接访问其他网页采集信息的,都可以使用采集页功能。
一体机驱动/ 131 MB
系统增强/ 45.33 MB
杂类其他/ 8.32 MB
站长工具/ 24.5 MB
游戏辅助/ 110 MB
软件评论
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!