平台:Winxp/vista/win7
软件大小:33.14 MB
下载次数:140
火车采集器(软著登字0144474号,2009SR017475)是一款专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从网页上抓取结构化的文本、图片、文件等资源信息,可编辑筛选处理后选择发布到网站后台,各类文件或其他数据库系统中。被广泛应用于数据采集挖掘、垂直搜索、信息汇聚和门户、企业网信息汇聚、商业情报、论坛或博客迁移、智能信息代理、个人信息检索等领域,适用于各类对数据有采集挖掘需求的群体。火车采集器专注于数据采集领域,致力于帮助各类互联网企业,站长,网站编辑等提供数据采集解决方案及消除采集技术难题。积累了十万余免费客户及近万名商业客户,产品及解决方案被华为软件、阿里巴巴、网易、酷六网、中国科学技术信息研究所、总装备部宣传部等使用并认可,并长期为国内知名互联网企业提供数据采集方案。自2005年11月21日发布第一版以来,经过六年多数十次的更新换代升级,新发布的基于火车头数据采集平台的火车采集器V7版已形成具有非常完善及强大的功能特性,以通用好用和良好的口碑著称。火车采集器程序功能上支持采集需要登录查看的内容,支持探测文件真实地址并下载远程文件,支持二级随机代理,支持采集数据直接入库和模仿手工发布等许多功能特点。同时又具有无限级网址采集、无限级多页和分页规则采集、POST采集、图片文件添加水印、XPath可视化提取、正文识别、OCR图形图像识别,同义词转换翻译伪原创等高级采集发布功能,可以完成您在浏览器内能看到的各类信息的提取。强大的php和c#插件接口支持,让您可以通过二次开发实现您对数据的萃取要求、定时任务及分布式采集客户端又能保证您对数据的及时性及数据量的要求。新版本火车采集器经过一年的开发,终于和大家见面了。新版本对程序进行了完全的重构,升级为全新的采集平台。软件也更名为火车头数据采集平台。火车采集器是火车头数据采集平台的默认扩展。以后大家可以在该平台上运行论坛采集器,微博采集器,XX采集器。企业用户还可以使用我们提供的API,开发有自己特色的采集器在平台上使用。新版本添加和修改的功能有:1、无限级多页采集,可以实现无限深度的采集。2、任务队列运行管理,支持Cron表达式。3、无限级分组任务管理,任务回收站功能。4、RSS地址采集功能。5、列表页分页采集获取功能。6、列表页附加参数获取功能。7、列表页及标签XPath可视化提取功能。8、标签纯正则替换功能。9、Http接口管理采集器运行。10、导出记录为单个或多个Txt、html文件。11、标签间自由组合功能。12、针对标签内容继续发送Http请求功能。13、无限级列表网址采集。14、从Http头信息中获取数据。15、标题内容正文提取功能。16、Aspx列表分页自识别。17、多网站站群式web发布。18、导出记录为Word格式。19、导出所有记录为Excel格式。20、使用随机二级代理服务器(支持Socket代理)。21、多扩展间数据交换功能。22、下载的图片自动加增强型水印功能。23、Ocr识别(图片转化为文字)。24、Mongodb数据库保存数据。25、主从服务器分布式采集。26、内置浏览器Cookie获取功能增强。27、任务列表树支持无限级分组。28、Web发布和数据库入库支持插件功能。29、起始网址支持等差等比数列。