Spark机器学习文本处理数据集
为了说明概念,我们将使用一个非常有名的数据集,叫作20Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。
下载地址
用户评论
感觉还行,只是感觉用着不是特别顺手