1. 首页
  2. 数据库
  3. 其它
  4. 简单理解NLP中文分词

简单理解NLP中文分词

上传者: 2021-01-15 22:42:13上传 PDF文件 38.66KB 热度 19次
什么是中文分词 中文分词指将一个汉字序列切分成一个个单独的词。 中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词识别问题:比如“hold”住 分词方法分类 中文分词主要分为:基于规则分词、基于概率统计分词。 基于规则分词 原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配 正向最大匹配法(forward maximum matching method, FMM) 参考博客:htt
用户评论