1. 首页
  2. 编程语言
  3. C++ 
  4. 文本分类文档预处理(英文)

文本分类文档预处理(英文)

上传者: 2019-05-21 17:08:06上传 CPP文件 3.67KB 热度 51次
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。
下载地址
用户评论
码姐姐匿名网友 2019-05-21 17:08:06

很实用,适合初学者

码姐姐匿名网友 2019-05-21 17:08:06

很不错、、

码姐姐匿名网友 2019-05-21 17:08:06

没有停用词词典。。不过这个随便一搜就能找到。 另一个问题是,没有全部小写,首字母全部大写觉得有些不利于接下来的工作。

码姐姐匿名网友 2019-05-21 17:08:06

没有停用词,谢谢分享

码姐姐匿名网友 2019-05-21 17:08:06

感觉不错 试用中

码姐姐匿名网友 2019-05-21 17:08:06

感觉不错,就是没有停用词和原数据集的格式

码姐姐匿名网友 2019-05-21 17:08:06

还不错 就是 没有源文件夹 不知道停用词文档是什么

码姐姐匿名网友 2019-05-21 17:08:06

还不错,谢谢作者

码姐姐匿名网友 2019-05-21 17:08:06

C++写的关于单个文档的去听用词,去符号等程序。

码姐姐匿名网友 2019-05-21 17:08:06

额 不是我需要的,我需要的是java程序