爬山虎采集器破解版-爬山虎采集器下载 v3.0.2.6官方版-PHPcom

当前位置：首页 ›› 网络软件›› 下载工具

爬山虎采集器 v3.0.2.6官方版爬山虎采集器破解版[下载地址]

授权方式：免费软件
软件类型：国产软件
软件语言：简体中文
软件大小：56.5 MB
推荐星级：
软件厂商：Home Page
更新时间：2021-01-25 14:07
网友评论：0 条
运行环境：WinXP, Win2003, Vista, Win7, Win8, Win10

好评：935

坏评：115

本地下载文件大小：56.5 MB
高速下载需优先下载高速下载器

软件介绍
软件截图
相关文章
下载地址

爬山虎采集器是一款功能强大的网页数据采集工具，是广大站长必备的爬虫采集软件，它采用自主研发的智能识别算法和高效浏览器引擎，可以自动识别目标源网页中的所有数据，并根据自定义的采集规则，生成您想要的文件，软件使用也非常简单，内置采集模板，涵盖大部分行业，包括目前热门的电商平台店铺商品采集和新闻媒体文章的采集，采集完成后您可以将采集到的的数据以TXT、CSV、Excel、Access、MySQL格式导出，小编为您带来了爬山虎采集器破解版的软件，并制作了详细的安装和使用教程，需要的朋友快来本站下载吧。

安装教程

1、下载本站为您提供的爬山虎采集器安装文件“PashanhuV3.0.2.0Setup.exe”，双击执行安装

2、进入安装向导界面，点击下一步

3、选择软件的安装路径，程序默认目录为【D:\Program Files\PashanhuV3】，您也可以自定义此目录，然后点击安装

4、等待安装进度完成

5、安装完成，您便可以正常打开爬山虎采集器进行网页数据采集了

使用教程

第一步：打开客户端，选择简易模式，进入采集市场，选择对应的网站模板

第二步：预览模板的采集字段、参数设置和示例数据

第三步：根据提示，设置对应的参数，点击采集即可完成相应数据采集

使用技巧

一、如何使用爬山虎采集器进行多级页面采集

在创建第一个任务示例中，我们演示了如何采集列表页数据。有时不仅要采集列表页数据，还要采集内容页。下面就来介绍下如何采集多级页面。

以新浪新闻为例，我们要采集采集最新的新闻标题、时间、内容。

首先，输入起始网址，http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml，点击下一步。

程序自动分析出列表数据，然后点击蓝色链接列的列头。这时，工具栏出现深入此链接采集，点击该按钮。

然后浏览器会新建一个内容页的标签页。在内容页标签页中，点击添加字段，然后在浏览器中点击新闻内容，修改字段名称为内容。

然后，下一步，完成。我们测试下任务

如何手动采集链接

一般情况下

新建字段，点击需要采集的链接。

把取值属性修改为href

部分使用javascript 来跳转的链接需要我们手动组合链接地址( href值为空，或者类似javascirpt:xxx())

如何删除一个标签页? 右击浏览器标签页的顶部，选择删除此页面。

二、如何使用爬山虎采集器下载网页中的图片文件?

如何下载图片?

点击添加字段。

鼠标点击网页中的图片，程序自动获取图片地址。(已有字段，选择重新选择元素，然后点击图片)

选择要下载的字段，点击菜单按钮，选择文件下载菜单。

设置文件名和图片的保存路径。。

完成

关于自定义文件名

在爬山虎采集器中，可以使用一些自定义变量来命名文件名，比如任务名称、时间格式、随机字符、以及使用字段值来命名。这些之间可以自由组合。

关于自定义目录

有时我们需要把下载文件存放在不同目录，比如采集淘宝图片时，我们希望同一个商品的多张图片，保存在以该商品ID命名的目录下。我们就可以将文件名设置未 {商品ID}/{原文件名} ，其中，{商品ID}是我们采集商品ID的字段名称，这个字段的顺序必须要放在下载图片字段之前。

在文件名中加入字符/，就可以生成目录。比如设置文件名为 {title}/{原文件名}，就会自动创建{title}目录，然后以原文件名保存。

关于图片地址本地化

如果采集的内容是要发布到网站上面，有下载图片的话，那就需要使用替换内容地址。

把内容中的原网站图片地址替换为本地相对地址。发布到网站后，在使用FTP软件把图片批量上传到网站目录，这样网页才会正常显示。

(一般网站都会对图片进行防倒链处理，禁止第三方网站直接引用)

如何下载多张图片

下载多张图片，我们需要修改图片XPath，来匹配多张图片。

如何下载文章HTML内的多张图片

采集新闻、文章内容时，如果内容中包含图片，我们需要采集文章的HTML形式，设置取值属性为InnerHTML或者OuterHTML。然后直接设置下载即可，程序会自动检测内容中IMG标签，并且下载图片。

延时加载(懒加载)的图片

有2中方法采集延时加载的图片

分析HTML代码，找出原始图片地址。一般图片地址都存在类似data-src，或者data-orignal这样的标签属性中。

使用脚本命令中的滚动命令，模拟浏览器的滚动，使得图片自动加载显示。然后在设置采集。

功能介绍

【向导模式】

通过可视化界面、鼠标点击即可采集数据、向导模式、用户无需任何技术基础，输入网址，一键提取数据。

【独创高速内核】

内置一套高速浏览器内核，加上HTTP引擎、JSON引擎模式，实现快速采集数据。

【定时运行】

可以按照每分钟、每天、每周、以及CRON表达式。指定了计划任务，任务就可以实现自动采集、自动发布，无需人工操作。

【智能识别】

通过智能算法，自动识别分页，自动识别列表，一键采集数据。

【支持文件下载】

可以支持图片、视频、文档等各种文件下载，支持自定义保存路径、文件名

【多种数据导出】

支持多格式数据导出，包括TXT、CSV、Excel、ACCESS、MySQL、SQLServer、SQLite及发布到网站接口(Api)。

【简单好用】

简单易学，通过可视化界面、鼠标点击即可采集数据、向导模式，用户无需任何技术基础，输入网址，一键提取数据。代码小白的福音。

【海量采集模板】

内置大量网站采集模板，覆盖多个行业，点击模板，即可加载数据，只需简单配置，就可快速准确获取数据，满足各种采集需求.。

【自研智能算法】

通过自研的智能识别算法，可以自动识别列表数据识别分页，准确率达到95%，可以深入采集多级页面，快速准确的获取数据。

【自动导出数据】

数据可以自动导出发布，支持多种格式导出，TXT、CSV、Excel、Access、MySQL、SQLServer、SQLite以及发布到网站接口(Api)等。

【通用灵活】

99%网站可以采集，静态网页、动态页面、单页应用、手机APP都可以抓取，GET、POST都可以采集

【高速采集】

内置高效浏览器引擎、HTTP引擎、JSON引擎，经过极致优化的内核，多线程采集，快速如飞。

【增量更新】

通过定时运行和增量更新，可以使得采集任务完全实现自动化运行，实时监测目标网站，实现同步更新。

【批量文件下载】

可以自动下载图片、PDF、DOCX等各种文件，并且支持自定义保存目录、自定义文件名称。

应用领域

电子商务领域

随着电子商务的高速发展，爬山虎采集器可以采集国内外任意电商网站，如同类商品的属性、评价、价格，市场销量占比等数据，通过爬山虎文本挖掘可视化分析系统，可对评论信息进行典型意见提取，情感分析，从而得出客观的市场评价及分析，优化运营，根据同类经验制造爆款，开展业务活动，提升网店的运营水平与效率。

新闻媒体领域

爬山虎采集器可以全方位采集国内外各大新闻源、主流社交媒体、社区论坛信息等，如：今日头条，微博、天涯论坛，知乎等。提供自动识别列表数据，可视化文本挖掘定时采集数据、自动上传数据或第三方平台，向导式操作界面，帮助企业自主监控品牌舆情，为互联网时代的品牌传播提供数据支持。

生活服务领域

科技发展与我们生活紧密相连，简单说，吃饭旅行直接团购网，外卖网，简单高效。爬山虎采集器可以采集美团饿了么，赶集网，大众点评，途牛，携程等各类生活服务网站，采集同类的属性、评价、价格，销量，评分等数据，通过爬山虎文本挖掘可视化分析系统，可对评论信息进行典型意见提取，情感分析，数据对比，从而更方便更快捷的为我们的衣食住行做出合适的选择。

政府(单位)领域

在全社会信息量爆炸式增长的背景下，政府机关对于数据的收集和利用也愈加重视起来，某气象中心通过爬山虎采集器汇集到各地区的各类气象相关监测数据，通过数据对比分析，及时预警最新气象活动分布范围，指导相关部门做好应对措施。