面对互联网上丰富但又庞杂的信息资源,政府机关、企事业单位和研究机构如何能获取到自己关心的信息,如何方便快捷地获取这些信息就变得至关重要。在这个信息爆炸的时代,如果采用原始的手工收集方式,费时费力而且效率低下,劳动强度和难度可想而知。因此,迫切需要能够提供一种高质量和高效运作的信息采集解决方案。
天工科技就是针对这个问题,面向市场这个迫切的需求,追踪业界先进的技术,运用自身的技术优势和行业优势研发出来天工信息抓取系统TG-WIAS(TG Web Information Acquirement System)。
使用TG-WIAS信息采集系统,可以定制采集互联网上的海量信息,从这些分散的信息中只抓取用户关注的信息。TG-WIAS信息采集系统还可以提供丰富的接口,可以为其它系统软件、平台,网站、集成商等提供信息采集应用,提高系统的应用价值,拓展市场份额。
政府机关
l 实时跟踪、采集与业务工作相关的信息来源。
l 全面满足内部工作人员对互联网信息的全局观测需求。
l 及时解决政务外网、政务内网的信息源问题,实现动态发布。
l 快速解决政府主网站对各地级子网站的信息获取需求。
l 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
l 节约信息采集的人力、物力、时间,提高办公效率。
企事业单位
l 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
l 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
l 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
l 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
l 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。
新闻媒体
l 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
l 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
l 支持对所需内容的智能提取、审核。
l 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化
TG-WIAS信息采集系统,包括前台抓取定义系统和后台抓取服务系统。
前台抓取定义系统,用户可以自定义抓取任务,任务的执行起始时间,抓取的线程数等,并对抓取任务进行监控,以及对抓取的信息进行查询。
后台抓取服务系统,对于用户定义的抓取任务,系统实时监控任务的启动时间,一旦符合条件自动启动抓取任务。后台服务信息抓取时,负责分析网页内容,提取正文内容,并判断是否符合用户配置规则。正文提取模块:负责提取网页正文内容,分析网页的相关度,提供访问链接等。
1) 基于框架和构件化方式进行开发,使系统具有良好的可维护性
2) 采用业界先进的J2EE、XML等平台及网络技术,使系统具有跨平台的特性。
3) 可以分别设置各采集任务的启动时间,适应不同的抓取任务有不同的抓取周期,也避开所有任务同时抓取而导致系统性能降低。
4) 可对信息采集所抓取网页的深度进行配置。
5) 实现全文检索,对抓取的信息建立全文索引,可方便高效的查询需要关注的信息。
6) 可以提供标准化接口,可与其他软件、平台等交互信息,预留接口可以满足其他应用,使TG-WIAS信息采集系统发挥最大效能。
使用TG-WIAS信息采集系统,根据自身关注的信息主题需要,定义好信息抓取任务,系统将自动从互联网上定时采集这些信息。譬如,国内外政治、经济、军事等发展变化,国家宏观经济政策、地方政府的发展战略、优惠鼓励措施等公开的互联网信息;市场动向、产品与服务、市场活动、各地区销售情况,等等。系统对这些信息进行自动下载,对信息内容进行智能分析及相应过滤,去掉无用的广告信息,以及过期和重复的信息,同时对采集的信息建立全文索引,实现全文搜索,提供方便快捷的查询,从而大大提高信息的可利用性,及时性,专业性,高效性。
一个主题就相当于一个采集任务,并支持主题的分层次维护,实现树型结构维护,使主题以目录树形式展现,层次分明。
可以对主题进行维护,新增删除主题。
定义主题的具体信息,如主题名称,主题对应的URL,主题匹配URL,实现过滤其他不相关的URL,主题的包含词以及排除词,实现信息的过滤。
定义任务,就是定义主题的抓取执行相关参数。如抓取参数线程数、网页深度、页面数,以及抓取任务的定时启动时间。
一个任务可以对应多个主题,就是说多个主题可以维护成相同的抓取参数。
对应每个主题,可以方便查询每个主题对应抓取的信息。可以查询到抓取的信息标题,信息对应的URL,信息的抓取时间,以及文章时间。并可以鼠标点击URL直接访问具体的信息页面。
可以监控所有抓取任务,监控抓取任务的运行状态。可以选择抓取任务实现停止或者启动抓取。
可以新增或者删除抓取任务。
对于抓取的所有信息,系统自动进行全文索引。提供全文检索,实行信息的方面快捷的查询。
● 服务器端操作系统
windows系列操作系统、Linux、Unix、Solaris等。
● 数据库服务器平台
Oracle、SQL Server、DB2、Sybase、My SQL及达梦(DM)国产数据库平台等。
● Web/应用服务器平台
BEA Weblogic Server、IBM Websphere、Tomcat、Jboss、Resin等等。
● 客户端操作系统
Windows系列操作系统及其它操作系统。
● 浏览器
IE6.0以上版本
● 服务器端
奔腾IV处理器2GHz以上;1G内存以上;20GB硬盘以上。
● 客户端
奔腾IV处理器1G以上;256M内存以上