1. 首页
  2. 数据库
  3. 其它
  4. NewsBacklight:一个NLP项目以充分利用20世纪的新闻报道 源码

NewsBacklight:一个NLP项目以充分利用20世纪的新闻报道 源码

上传者: 2021-04-06 16:47:03上传 ZIP文件 36.58MB 热度 12次
新闻背景 这个NLP项目旨在通过分析过去的报纸文章,为当前事件开辟新的亮点。 我们开发了一个聊天机器人,可根据语义相似性和主题识别为报纸读者提供档案文章推荐。 该存储库的内容 快速开始 requirements.txt README.md 数据 InputArticles文件夹:每个子文件夹对应于一年,并且包含新闻文章作为json文件。 文章发表于20世纪下半叶的法国报纸《 Ouest France 》上。 articles.csv :在csv格式元数据,从内置的文章InputArticles文件夹中。 文章总数为726。 articles_labeled.xlsx :地理和主题的手动标签。 labeled_articles_clean.csv :带有包含预处理文本(文章标题和正文)的列。 sample_articles.xlsx :从2020年开始的数据样本,用于测试命令引
下载地址
用户评论