数据集管理与分析平台
Reddit前250万这是什么?这是来自的热门帖子数据集。它包含来自前2,500个subreddits的前1,000个历史帖子,因此总共有250万个帖子。排名靠前的subreddits由订阅者数量决定,并位于其中的清单文件中。该数据是在2013年8月15日至20日之间提取的。每个文件都是一个以相关subreddit作为文件名的CSV。每个CSV文件都包含一个标题行。
研究问题:企业媒体如何反映在社交媒体上?主流媒体上发布的世界事件如何反映社交媒体帖子的情绪?
自然语言处理:对于NLP,我们将使用nltk。使用pip安装:sudo pip install -U nltk
SCI套件学习:使用pip安装:pip install -U scikit-learn
数据来源:新闻文章
下载地址
用户评论