爬山虎采集器 v3.0.2.6官方版

最近更新热门排行

热门搜索:腾讯QQ腾讯视频爱奇艺万能播放器暴风影音网易云音乐

当前位置:首页 ›› 网络软件›› 下载工具

爬山虎采集器 v3.0.2.6官方版爬山虎采集器破解版[下载地址]

爬山虎采集器 v3.0.2.6官方版
  • 授权方式:免费软件
  • 软件类型:国产软件
  • 软件语言:简体中文
  • 软件大小:56.5 MB
  • 推荐星级:
  • 软件厂商:Home Page
  • 更新时间:2021-01-25 14:07
  • 网友评论:0  条
  • 运行环境:WinXP, Win2003, Vista, Win7, Win8, Win10
好评:935
坏评:115
  • 本地下载文件大小:56.5 MB

  • 高速下载需优先下载高速下载器

  • 软件介绍
  • 软件截图
  • 相关文章
  • 下载地址

爬山虎采集器是一款功能强大的网页数据采集工具,是广大站长必备的爬虫采集软件,它采用自主研发的智能识别算法和高效浏览器引擎,可以自动识别目标源网页中的所有数据,并根据自定义的采集规则,生成您想要的文件,软件使用也非常简单,内置采集模板,涵盖大部分行业,包括目前热门的电商平台店铺商品采集和新闻媒体文章的采集,采集完成后您可以将采集到的的数据以TXT、CSV、Excel、Access、MySQL格式导出,小编为您带来了爬山虎采集器破解版的软件,并制作了详细的安装和使用教程,需要的朋友快来本站下载吧。

安装教程

1、下载本站为您提供的爬山虎采集器安装文件“PashanhuV3.0.2.0Setup.exe”,双击执行安装

2、进入安装向导界面,点击下一步

3、选择软件的安装路径,程序默认目录为【D:\Program Files\PashanhuV3】,您也可以自定义此目录,然后点击安装

4、等待安装进度完成

5、安装完成,您便可以正常打开爬山虎采集器进行网页数据采集了

使用教程

第一步:打开客户端,选择简易模式,进入采集市场,选择对应的网站模板

第二步:预览模板的采集字段、参数设置和示例数据

第三步:根据提示,设置对应的参数,点击采集即可完成相应数据采集

使用技巧

一、如何使用爬山虎采集器进行多级页面采集

在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时不仅要采集列表页数据,还要采集内容页。下面就来介绍下如何采集多级页面。

以新浪新闻为例,我们要采集采集最新的新闻标题、时间、内容。

首先,输入起始网址,http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml,点击下一步。

程序自动分析出列表数据,然后点击蓝色链接列的列头。这时,工具栏出现深入此链接采集 ,点击该按钮。

然后浏览器会新建一个内容页的标签页。 在内容页标签页中,点击添加字段,然后在浏览器中点击新闻内容,修改字段名称为内容。

然后,下一步,完成。 我们测试下任务

如何手动采集链接

一般情况下

新建字段,点击需要采集的链接。

把取值属性修改为href

部分使用javascript 来跳转的链接需要我们手动组合链接地址( href值为空,或者类似javascirpt:xxx())

如何删除一个标签页? 右击浏览器标签页的顶部,选择删除此页面。

二、如何使用爬山虎采集器下载网页中的图片文件?

如何下载图片?

点击添加字段。

鼠标点击网页中的图片,程序自动获取图片地址。(已有字段,选择重新选择元素,然后点击图片)

选择要下载的字段,点击菜单按钮,选择文件下载菜单。

设置文件名和图片的保存路径。。

完成

关于自定义文件名

在爬山虎采集器中,可以使用一些自定义变量来命名文件名,比如任务名称、时间格式、随机字符、以及使用字段值来命名。这些之间可以自由组合。

关于自定义目录

有时我们需要把下载文件存放在不同目录,比如采集淘宝图片时,我们希望同一个商品的多张图片,保存在以该商品ID命名的目录下。 我们就可以将文件名设置未 {商品ID}/{原文件名} ,其中,{商品ID}是我们采集商品ID的字段名称,这个字段的顺序必须要放在下载图片字段之前。

在文件名中加入字符/,就可以生成目录。 比如设置文件名为 {title}/{原文件名}, 就会自动创建{title}目录,然后以原文件名保存。

关于图片地址本地化

如果采集的内容是要发布到网站上面,有下载图片的话,那就需要使用替换内容地址 。

把内容中的原网站图片地址替换为本地相对地址 。发布到网站后,在使用FTP软件把图片批量上传到网站目录,这样网页才会正常显示。

(一般网站都会对图片进行防倒链处理,禁止第三方网站直接引用)

如何下载多张图片

下载多张图片,我们需要修改图片XPath,来匹配多张图片。

如何下载文章HTML内的多张图片

采集新闻、文章内容时,如果内容中包含图片,我们需要采集文章的HTML形式,设置取值属性为InnerHTML或者OuterHTML。 然后直接设置下载即可,程序会自动检测内容中IMG标签,并且下载图片。

延时加载(懒加载)的图片

有2中方法采集延时加载 的图片

分析HTML代码,找出原始图片地址。 一般图片地址都存在类似data-src,或者data-orignal这样的标签属性中。

使用脚本命令中的滚动命令,模拟浏览器的滚动,使得图片自动加载显示。 然后在设置采集。

功能介绍

【向导模式】

通过可视化界面、鼠标点击即可采集数据、向导模式、用户无需任何技术基础,输入网址,一键提取数据。

【独创高速内核】

内置一套高速浏览器内核,加上HTTP引擎、JSON引擎模式,实现快速采集数据。

【定时运行】

可以按照每分钟、每天、每周、以及CRON表达式。指定了计划任务,任务就可以实现自动采集、自动发布,无需人工操作。

【智能识别】

通过智能算法,自动识别分页,自动识别列表,一键采集数据。

【支持文件下载】

可以支持图片、视频、文档等各种文件下载,支持自定义保存路径、文件名

【多种数据导出】

支持多格式数据导出,包括TXT、CSV、Excel、ACCESS、MySQL、SQLServer、SQLite及发布到网站接口(Api)。

【简单好用】

简单易学,通过可视化界面、鼠标点击即可采集数据、向导模式,用户无需任何技术基础,输入网址,一键提取数据。代码小白的福音。

【海量采集模板】

内置大量网站采集模板,覆盖多个行业,点击模板,即可加载数据,只需简单配置,就可快速准确获取数据,满足各种采集需求.。

【自研智能算法】

通过自研的智能识别算法,可以自动识别列表数据识别分页,准确率达到95%,可以深入采集多级页面,快速准确的获取数据。

【自动导出数据】

数据可以自动导出发布,支持多种格式导出,TXT、CSV、Excel、Access、MySQL、SQLServer、SQLite以及发布到网站接口(Api)等。

【通用灵活】

99%网站可以采集,静态网页、动态页面、单页应用、手机APP都可以抓取,GET、POST都可以采集

【高速采集】

内置高效浏览器引擎、HTTP引擎、JSON引擎,经过极致优化的内核,多线程采集,快速如飞。

【增量更新】

通过定时运行和增量更新,可以使得采集任务完全实现自动化运行,实时监测目标网站,实现同步更新。

【批量文件下载】

可以自动下载图片、PDF、DOCX等各种文件,并且支持自定义保存目录、自定义文件名称。

应用领域

电子商务领域

随着电子商务的高速发展,爬山虎采集器可以采集国内外任意电商网站,如同类商品的属性、评价、价格,市场销 量占比等数据,通过爬山虎文本挖掘可视化分析系统,可对评论信息进行典型意见提取,情感分析,从而得出客观 的市场评价及分析,优化运营,根据同类经验制造爆款,开展业务活动,提升网店的运营水平与效率。

新闻媒体领域

爬山虎采集器可以全方位采集国内外各大新闻源、主流社交媒体、社区论坛信息等,如:今日头条,微博、天涯 论坛,知乎等。提供自动识别列表数据,可视化文本挖掘定时采集数据、自动上传数据或第三方平台,向导式操 作界面,帮助企业自主监控品牌舆情,为互联网时代的品牌传播提供数据支持。

生活服务领域

科技发展与我们生活紧密相连,简单说,吃饭旅行直接团购网,外卖网,简单高效。爬山虎采集器可以采集美团 饿了么,赶集网,大众点评,途牛,携程等各类生活服务网站,采集同类的属性、评价、价格,销量,评分等数 据,通过爬山虎文本挖掘可视化分析系统,可对评论信息进行典型意见提取,情感分析,数据对比,从而更方便 更快捷的为我们的衣食住行做出合适的选择。

政府(单位)领域

在全社会信息量爆炸式增长的背景下,政府机关对于数据的收集和利用也愈加重视起来,某气象中心通过爬山虎 采集器汇集到各地区的各类气象相关监测数据, 通过数据对比 分析,及时预警最新气象活动分布范围,指导相 关部门做好应对措施。

更新日志

v3.0.2.6更新:

1、修复分页的采集优先级

2、提前检验xpath和正则的正确性

3、其他使用了Inputbox的验证修改

4、增加数据处理-前后缀

5、修复英文系统下乱码问题

6、修复小分辨率下,窗口超过屏幕问题

7、新增路由拨号和adsl拨号功能

8、对等待命令增加等待某元素

9、修复form的解析

10、任务列表按时间顺序排列

11、完善探测列表数据(列表就是a元素

12、修复下载文件无后缀问题

13、新增高级过滤功能

14、添加鼠标和键盘的模拟操作

15、增大滚动页数

下载地址
爬山虎采集器 v3.0.2.6官方版

软件评论

请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!

  验证码: