业务介绍

分布式互联网数据采集平台

独立研发,完全自主知识产权

此产品是多年数据采集经验和技术沉淀的结果,具有完全知识产权

高性能分布式数据采集平台,能够满足对大数据的采集需求,优化的采集算法

平滑的扩展性、良好的纠错和错误预警机制以及独特的代理变更算法

使得此采集平台在实际使用具有优秀的表现

产品特点

分布式部署,由调度服务器统一操控

多线程,充分利用服务器和带宽资源

独创定向解析网页标签结构算法,使得配置和维护更高效

错误预警机制,及时发现采集过程出现的问题

Cookie通道机制,有效模拟登录过程,多个采集过程共用一个cookie信息

完全支持Web3.0,采集的范围更广阔

友好采集机制,降低目标服务器的负担

异常重试机制,增大每个链接的成功率

代理池机制,预先检测代理的速度,优先使用高速代理,提高采集效率

多种手段识别网页编码,减少乱码的出现概率

支持Https访问

支持采集策略和采集周期设置

具有防止重复采集机制

核心技术1:防止恶意封堵

模拟真实访问,完全模拟浏览器访问机制,如同一个普通的用户在访问

变换IP地址,良好的IP变换算法,保证访问更真实

Cookie隔离 , 模拟用户访问的Cookie是隔离的

优化访问策略 , 避免集中采集目标服务器

封堵预警 ,发现封堵及时预警

核心技术2:高效率采集

分布式部署+多线程+采集策略最大限度提高采集效率

针对重点关注的目标单独分配资源和策略

代理池预检测机制,确保使用速度最快的代理

异常及时预警,减少错误发现周期

有效防重算法,避免重复访问网页

核心技术3:分布式采集

针对采集领域独创分布式算法

由调度服务器统一进行操作管理

采集服务器可以横行无限扩展

采集算法和采集策略自动同步

支持多台采集服务器同时启停和对某台采集服务器单独启停

核心技术4:采集配置语言

独创的采集配置语言,能够高效配置采集和解析网页结构,而不用编写复杂的程序

采集配置语言以独立文件存在,更新方便不需要重启服务

采集配置语言可以共享使用

能够快速应对采集网页结构的变动

支持多台采集服务器同时启停和对某台采集服务器单独启停

核心技术5:支持Web3.0

能够采集使用最新Web3.0等技术的数据

支持Html,Json、xml等多种格式解析

支持Ajax二次加载的采集

支持需要登录信息的Ajax的采集

 

核心技术6:采集平衡算法

避免短时频繁对目标服务器进行采集

将不同采集目标穿插分配,既可以避免封堵又能充分利用采集服务器资源