公司产品
  解决方案
 

中文自然语言信息处理自动分类基础件

基础件功能:
  自动分类基础件实现将文章根据内容特征自动划分到所属类别中的功能。自动分类基础件广泛应用于信息发布、文档管理等方面。

基础件概述:
  随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可或缺的工具,自动分类系统是信息处理的重要研究方向之一,它是指在给定的分类体系下,根据文本的内容自动判别文本所属类别的过程。
  如何在成千上万的文本中掌握最有效的信息?如何实现信息的自动分类?可以通过自动分类基础件来实现。
  分类即根据事物的特点分别归类。实现中文信息自动分门别类是一件及其复杂的技术。我们开放的自动分类基础件是依靠中文智能分词技术的,准确、高效便于二次开发的软件包,以及为使软件包在目标系统中实现最优品质而提供的特定服务。其服务包括:目标系统架构咨询、辅助开发、技术培训、售后支持等。
  通过人工对其简单的“训练”后,可对文本进行高速智能的自动分类。分类可实现多层的树状结构,允许一篇文档同时属于多个分类。
  基础件工作分为三个阶段:
  a.准备阶段:使用者需要事先准备已规划完的分类方式,构造分类结构树,以及在此分类方式下的人工标注完成的分类文档集(训练文档),每个类别约200-500个文档;
  b.训练阶段:利用系统提供的工具进行分类结构树的构建,利用训练文档集对系统进行学习训练,并可根据实际情况手工调整参数;
  c.分类阶段:将待分类的文档提交给系统,基础件根据设定参数对其进行自动分类。

基础件技术特点:
  自动分类基础件的开发采用文档向量空间模型与分类算法的概率统计模型。分类算法核心的基本原型是当前被学术界公认最好的文本分类模型。统计学习方法的实质是利用统计概率原理,采用计算机自动学习的方法,通过对已知样本的自动学习,建立特征体系,并实现对未知样本的预测。

基础件封装形式:
  自动分类基础件采用EXE封装形式,将自动分类全部功能集成在其中,并提供了设置界面,可以设置数据库参数及分类策略参数等。

基础件调用方法:
  执行EXE进行调用,成功执行后自动分类基础件能够自动工作。

基础件应用领域:
  a.信息发布:如新闻分类、信息分类;
  b.文档管理:文档分类;
  c.行业门户网站。

阅读:3937 Top↑ 
【关闭窗口】
 
Copyright © 2005-2020 版权所有 北京网讯博通信息技术有限责任公司  ICP备案号:京ICP备12002193号