1. 首页
  2. 编程语言
  3. C
  4. 数据集管理与分析平台

数据集管理与分析平台

上传者: 2024-10-20 22:33:11上传 ZIP文件 473.62MB 热度 2次

Reddit前250万这是什么?这是来自的热门帖子数据集。它包含来自前2,500个subreddits的前1,000个历史帖子,因此总共有250万个帖子。排名靠前的subreddits由订阅者数量决定,并位于其中的清单文件中。该数据是在2013年8月15日至20日之间提取的。每个文件都是一个以相关subreddit作为文件名的CSV。每个CSV文件都包含一个标题行。

研究问题:企业媒体如何反映在社交媒体上?主流媒体上发布的世界事件如何反映社交媒体帖子的情绪?

自然语言处理:对于NLP,我们将使用nltk。使用pip安装:sudo pip install -U nltk

SCI套件学习:使用pip安装:pip install -U scikit-learn

数据来源:新闻文章

用户评论