1. 首页
  2. 编程语言
  3. 其他
  4. C++中文分词源码,分词的方法

C++中文分词源码,分词的方法

上传者: 2018-12-26 02:36:21上传 RAR文件 327.29KB 热度 34次
西方语言在语句(或从句)内词汇之间存在分割符(空格),而汉语的词汇在语句中是连续排列的。因此,汉语词汇的切分(分词)在中文信息处理的许多应用领域,如机器翻译、文献检索、文献分类、文献过滤、以及词频统计等,是非常重要的第一步。 自动分词是基于字符串匹配的原理进行的。迄今为止,已经有许多文献对各种分词方法进行探讨,其着重点或为分词的速度方面,或为分词的精度方面以及分词的规范。本文主要探讨分词的速度问题,通过实验对比和理论分析,说明我们所提出的算法是有效的。 目前人们所提出的分词方法,在考虑效率问题时,通常在词典的组织方面进行某种调整,以适应相应的算法,如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中,或将词典按词条长度排序或按词频排序,其目的在于协调算法与数据结构,使之效率最高。客观地说,它们都在一定程度上提高了分词的效率。 本文所介绍的是基于词典的最大向前匹配方法。而在数据结构方面,我们则是将词典组织成自动机形式。
下载地址
用户评论
码姐姐匿名网友 2018-12-26 02:36:21

研究学习一下,还不错,值得借鉴

码姐姐匿名网友 2018-12-26 02:36:21

不错不错,可以用,谢谢啦

码姐姐匿名网友 2018-12-26 02:36:21

头文件怎么处理的?

码姐姐匿名网友 2018-12-26 02:36:21

学习 学习。

码姐姐匿名网友 2018-12-26 02:36:21

不错,可以借鉴一下

码姐姐匿名网友 2018-12-26 02:36:21

十分强大 很有用的

码姐姐匿名网友 2018-12-26 02:36:21

很好很强大,可以参考学习

码姐姐匿名网友 2018-12-26 02:36:21

还可以,稍微学习下~

码姐姐匿名网友 2018-12-26 02:36:21

挺有参考价值的