简单理解NLP中文分词
什么是中文分词 中文分词指将一个汉字序列切分成一个个单独的词。 中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词识别问题:比如“hold”住 分词方法分类 中文分词主要分为:基于规则分词、基于概率统计分词。 基于规则分词 原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配 正向最大匹配法(forward maximum matching method, FMM) 参考博客:htt
用户评论