新闻搜索
 
最新新闻
1  天工互联网信息采集系
2  通讯电缆防盗系统开发
3  天工网通催费系统实现
4  催费系统常见问题解答
5  如何使用天工VPN互
6  我公司成功开发出天工
热门新闻 点击
 我公司成功开发出天工 2175
 催费系统常见问题解答 1964
 天工网通催费系统实现 1827
 如何使用天工VPN互 1657
 通讯电缆防盗系统开发 1602
 天工互联网信息采集系 1363
     新 闻 中 心
天工互联网信息采集系统介绍
双击自动滚屏 发布者:admin 发布时间:2008-03-27 11:30:18 阅读:1363

1.     产品背景

面对互联网上丰富但又庞杂的信息资源,政府机关、企事业单位和研究机构如何能获取到自己关心的信息,如何方便快捷地获取这些信息就变得至关重要。在这个信息爆炸的时代,如果采用原始的手工收集方式,费时费力而且效率低下,劳动强度和难度可想而知。因此,迫切需要能够提供一种高质量和高效运作的信息采集解决方案。

天工科技就是针对这个问题,面向市场这个迫切的需求,追踪业界先进的技术,运用自身的技术优势和行业优势研发出来天工信息抓取系统TG-WIASTG Web Information Acquirement System)。

使用TG-WIAS信息采集系统,可以定制采集互联网上的海量信息,从这些分散的信息中只抓取用户关注的信息。TG-WIAS信息采集系统还可以提供丰富的接口,可以为其它系统软件、平台,网站、集成商等提供信息采集应用,提高系统的应用价值,拓展市场份额。

 

2.     产品适用

政府机关

l        实时跟踪、采集与业务工作相关的信息来源。

l        全面满足内部工作人员对互联网信息的全局观测需求。

l        及时解决政务外网、政务内网的信息源问题,实现动态发布。

l        快速解决政府主网站对各地级子网站的信息获取需求。

l        全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。

l        节约信息采集的人力、物力、时间,提高办公效率。

 

企事业单位

l        实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。

l        及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。

l        为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。

l        大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。

l        提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。

 

新闻媒体

l        快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。

l        支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。

l        支持对所需内容的智能提取、审核。

l        实现互联网信息内容采集、浏览、编辑、管理、发布的一体化

 

 

3.     体系结构

TG-WIAS信息采集系统,包括前台抓取定义系统和后台抓取服务系统。

前台抓取定义系统,用户可以自定义抓取任务,任务的执行起始时间,抓取的线程数等,并对抓取任务进行监控,以及对抓取的信息进行查询。

后台抓取服务系统,对于用户定义的抓取任务,系统实时监控任务的启动时间,一旦符合条件自动启动抓取任务。后台服务信息抓取时,负责分析网页内容,提取正文内容,并判断是否符合用户配置规则。正文提取模块:负责提取网页正文内容,分析网页的相关度,提供访问链接等。

4.     系统特点

1)     基于框架和构件化方式进行开发,使系统具有良好的可维护性

2)     采用业界先进的J2EEXML等平台及网络技术,使系统具有跨平台的特性。

3)     可以分别设置各采集任务的启动时间,适应不同的抓取任务有不同的抓取周期,也避开所有任务同时抓取而导致系统性能降低。

4)     可对信息采集所抓取网页的深度进行配置。

5)     实现全文检索,对抓取的信息建立全文索引,可方便高效的查询需要关注的信息。

6)     可以提供标准化接口,可与其他软件、平台等交互信息,预留接口可以满足其他应用,使TG-WIAS信息采集系统发挥最大效能。

 

5.     功能介绍

使用TG-WIAS信息采集系统,根据自身关注的信息主题需要,定义好信息抓取任务,系统将自动从互联网上定时采集这些信息。譬如,国内外政治、经济、军事等发展变化,国家宏观经济政策、地方政府的发展战略、优惠鼓励措施等公开的互联网信息;市场动向、产品与服务、市场活动、各地区销售情况,等等。系统对这些信息进行自动下载,对信息内容进行智能分析及相应过滤,去掉无用的广告信息,以及过期和重复的信息,同时对采集的信息建立全文索引,实现全文搜索,提供方便快捷的查询,从而大大提高信息的可利用性,及时性,专业性,高效性。

 

5.1   主题维护

一个主题就相当于一个采集任务,并支持主题的分层次维护,实现树型结构维护,使主题以目录树形式展现,层次分明。

可以对主题进行维护,新增删除主题。

 

5.2   定义主题

定义主题的具体信息,如主题名称,主题对应的URL,主题匹配URL,实现过滤其他不相关的URL,主题的包含词以及排除词,实现信息的过滤。

 

 

 

5.3   定义任务

定义任务,就是定义主题的抓取执行相关参数。如抓取参数线程数、网页深度、页面数,以及抓取任务的定时启动时间。

一个任务可以对应多个主题,就是说多个主题可以维护成相同的抓取参数。

5.4   信息查询

对应每个主题,可以方便查询每个主题对应抓取的信息。可以查询到抓取的信息标题,信息对应的URL,信息的抓取时间,以及文章时间。并可以鼠标点击URL直接访问具体的信息页面。

 

5.5   抓取监控

可以监控所有抓取任务,监控抓取任务的运行状态。可以选择抓取任务实现停止或者启动抓取。

可以新增或者删除抓取任务。

 

5.6   全文检索

对于抓取的所有信息,系统自动进行全文索引。提供全文检索,实行信息的方面快捷的查询。

 

6.     应用环境

6.1   软件环境

    服务器端操作系统

windows系列操作系统、LinuxUnixSolaris等。

数据库服务器平台

OracleSQL ServerDB2SybaseMy SQL及达梦(DM)国产数据库平台等。

    Web/应用服务器平台

BEA Weblogic ServerIBM WebsphereTomcatJbossResin等等。

    客户端操作系统

Windows系列操作系统及其它操作系统。

    浏览器

IE6.0以上版本

6.2   硬件环境

    服务器端

奔腾IV处理器2GHz以上;1G内存以上;20GB硬盘以上。

    客户端

奔腾IV处理器1G以上;256M内存以上

 
 

打印本页 || 关闭窗口
友情链接
VIP客户百度搜索

版权所有 2001-2030 天工科技 www.qdtgit.com
地址:中国青岛 邮编:266071 鲁ICP备20024164号
技术咨询: l36 O634 9655
邮箱:tgsoft@qdtgit.com