1. 首页
  2. 编程语言
  3. 其他
  4. 20newsgroup

20newsgroup

上传者: 2019-05-21 16:43:32上传 ZIP文件 39.78MB 热度 29次
20newsgroup数据集是机器学习中的一个标准数据集。它包含18828个文档,来自于20个不同的新闻组。该资源包含一个原信息文件和3个目录:test、train和raw。测试和训练目录将整个数据集切分为60%的训练和40%的测试文档。
下载地址
用户评论
码姐姐匿名网友 2019-05-21 16:43:32

有用的资源

码姐姐匿名网友 2019-05-21 16:43:32

不用番外网下载了

码姐姐匿名网友 2019-05-21 16:43:32

外网翻不出去,作者在原文链接中提到这个资源。

码姐姐匿名网友 2019-05-21 16:43:32

做LDA要用的,感谢分享

码姐姐匿名网友 2019-05-21 16:43:32

资源里面没有语料库

码姐姐匿名网友 2019-05-21 16:43:32

1-Original 20 Newsgroups data set 2-20 Newsgroups sorted by date; duplicates and some headers removed (18846 documents) 3- 20 Newsgroups; duplicates removed, only "From" and "Subject" headers (18828 documents) 很赞!!!