公司产品
  解决方案
 

中文自然语言信息处理智能分词基础件

基础件功能:
  中文智能分词基础件是中文智能计算技术的核心基础件,实现将指定文本自动拆分成一系列词序列的功能。广泛应用于全文检索、自动分类、相关文档等方面。

基础件概述:
  自动分词技术是针对现代汉语字序列文本,自动分解为词序列文本的技术。词是能独立活动、有意义的最小语言单位。分词技术是中文信息处理从字符处理水平向语义处理水平转变的关键所在,也是中文智能计算技术的基础。目前市场上已有的中文分词产品普遍存在一个问题,就是中文自动分词准确率低,影响分词结果准确率的主要因素在于以下方面:
  a.词表收录;
  b.分词规范;
  c.人名地名识别;
  d.歧义切分。
  我们开发的中文智能分词基础件通过采用优化的算法、歧义处理、未登录词识别、可定制词库等技术算法,很好地解决了以上问题,使分词准确率大幅提升,处于当前业内领先水平。

基础件技术特点:
  a.算法特点:
  采用最大匹配法、词长平均法、单字词频和最大法,有效地提高了分词精度和效率,对各种歧义的处理能力大幅度提高;
  发展了受限的隐马尔科夫过程, 使知识库的冗余大幅降低。
  b.性能指标:
  分词速度快(23.3万字/秒)、准确率高(99.2%)、词库灵活可定制。
  c.歧义识别:
  中文智能分词基础件依靠先进的歧义识别算法,有效地避免分词歧义的产生,使分词的准确率大大提高。
  d.未登录词识别:
  未登录词(包括人名、地名等)的识别,是影响中文分词准确率的重要因素,中文智能分词基础件采用了先进的新词识别算法,能够自动准确地识别未登录词。

基础件封装形式:
  中文智能分词基础件采用DLL封装形式,将分词函数全部集成在其中,并提供了外部程序API调用接口,以供外部程序调用分词函数。

基础件调用方法:
  在外部程序中编写API程序段,声明一个中文智能分词基础件实例,需要使用智能分词功能时,编写分词函数调用语句,指定待分词文本、分词选项等输入参数,并将函数返回值赋值给分词结果变量。当程序执行到函数调用语句后,分词函数返回值(分词结果)被赋值到分词结果变量中,分词调用完成。

基础件应用领域:
  a.信息检索:如全文检索、主题检索;
  b.汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换;
  c.内容识别与分析:如信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘;
  d.自然语言理解:如机器翻译、自然语言接口。

阅读:4327 Top↑ 
【关闭窗口】
 
Copyright © 2005-2020 版权所有 北京网讯博通信息技术有限责任公司  ICP备案号:京ICP备12002193号