讯速开源分布式定向采集系统(hitask)

讯速分布式定向采集系统(hitask)

讯速开源分布式定向采集系统(hitask)

欢迎加入开源搜索引擎QQ讨论群:1831546 合作洽谈QQ:4451310 检索系统介绍
源码下载
学习资料

目录

    系统简介
    采集流程
    配置运行
    测试实例
展开

任何疑问请提交官方微博http://weibo.com/sounos或者邮箱sounos@gmail.com

系统简介

讯速分布式定向采集系统(hitask)是一个开源的数据采集系统, 开发始于2008年,早期版本属于实验版本仅仅支持数据采集功能, 不能精准的抽取网页内容,在此基础上发展的分布式采集系统具备多节点同时采集功能, 同时支持模版的方式抽取内容, 大大提高系统的可用性和网络带宽利用率. 基础通信库使用libsbase, 字符集识别使用libcharset(C++), 核心代码全部由纯C语言实现, 采用面向对象设计思想. 运行于类unix系统linux/BSD,主要功能点如下:

异步DNS解析

URL排重

支持HTTP 压缩编码传输 gzip/deflate

字符集判断自动转换成UTF-8编码

文档压缩存储

支持多下载节点分布式下载

下载任务控制(可停止和恢复任务),指定url优先下载,指定host优先下载
采集流程

从中心节点取URL(包括URL对应的任务号, IP和port,也可能host需要任务节点自己解析)

连接服务器发送请求

等待数据头判断是否需要的数据(目前主要取text类型的数据)

等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)

数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息

中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.

完成后返回一个新的任务.
配置运行

下载最新版hitask: http://code.google.com/p/hispider/downlgads/list

程序依赖包 zlib pcre libcharset libevbase libsbase

测试实例数据包 http://hispider.googlecode.com/files/hitask.tar.gz

下载解压到指定目录下一个后更改 /etc/hitaskd.ini 里的配置路径 "hibasedir" 为解压后的路径.

服务启动:

/usr/local/bin/hitaskd -d -c /usr/local/etc/hitaskd.ini

/usr/local/bin/hitask -d -c /usr/local/etc/hitask.ini
测试实例

服10.管理URL-添加种子

讯速开源分布式定向采集系统(hitask)

 

原文链接: https://www.cnblogs.com/lexus/archive/2012/03/21/2410142.html

欢迎关注

微信关注下方公众号,第一时间获取干货硬货;公众号内回复【pdf】免费获取数百本计算机经典书籍

    讯速开源分布式定向采集系统(hitask)

原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/44776

非原创文章文中已经注明原地址,如有侵权,联系删除

关注公众号【高性能架构探索】,第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处!

(0)
上一篇 2023年2月8日 下午9:25
下一篇 2023年2月8日 下午9:26

相关推荐