公司产品
  解决方案
 

中文自然语言信息处理网络蜘蛛基础件

基础件功能:
  网络蜘蛛基础件实现从指定URL开始遍历采集整个网站页面内容的功能。网络蜘蛛基础件应用广泛,凡是需要积累信息的系统都需要网络蜘蛛基础件,如搜索引擎、情报搜集、资料收集、网站信息采集等。

基础件概述:
  “网络蜘蛛”,学名Spider,也称机器人程序,是一个自动爬行程序,会自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到全部链接,然后它再从该页面的所有链接出发,继续寻找页面中的链接,以此类推,直至穷尽。对网络蜘蛛的要求是高效、全面。
  互联网的迅速发展,导致了网上信息的爆炸性增长。要在如此浩瀚的信息海洋里快速、全面的收集信息,就不得不借助网络蜘蛛基础件。
  实现网络蜘蛛的快速、全面是一件及其复杂的技术。网络蜘蛛基础件依托中文信息处理技术,是一个准确、高效、接口方便灵活便于二次开发的软件包,以及为使软件包在目标系统中实现最优品质而提供的特定服务。其服务包括:目标系统架构咨询、辅助开发、技术培训、售后支持等。
我们开发的网络蜘蛛基础件使用多线程、多任务处理机制,具有采集信息全、采集速度快等特点。使用效果上,完全可以与百度、Google等搜索引擎使用的花巨资开发的搜索蜘蛛相媲美。

基础件技术特点:
  1)下载全面:
  a.静态链接,支持全路径、相对路径;
  b.可以直接取得URL的动态网页(CGI,ASP,PHP 等) ;
  c.支持JavaScript脚本;
  d.支持注册网站的下载;
  e.支持WWW认证网站的下载;
  f.可以自定义下载文件的扩展名;
  g.支持自定义URL的下载;
  h.支持多线程,多任务;
  2)更新快速:
  提供多种更新机制,完全更新和增量更新:
  a.更新整个网站;
  b.只更新网站中变化的内容;
  3)下载准确:
  a.能够识别错误页,空页,转向页等;
  b.对重复(内容相同的网页)的网页不会反复下载;

基础件封装形式:
  网络蜘蛛基础件采用EXE封装形式,将网络蜘蛛全部功能集成在其中,并提供了设置界面,可以设置数据库参数及爬行策略参数等。

基础件调用方法:
  执行EXE进行调用,成功执行后网络蜘蛛基础件能够自动工作。

基础件应用领域:
  a.搜索引擎:
  性能卓越的网络蜘蛛是实现一个优秀搜索引擎的关键所在。
  b.信息积累:
  信息的积累主要应用于情报的搜集、资料的收集、信息的收集等方面。

阅读:3883 Top↑ 
【关闭窗口】
 
Copyright © 2005-2020 版权所有 北京网讯博通信息技术有限责任公司  ICP备案号:京ICP备12002193号