1. 首页
  2. 大数据
  3. 算法与数据结构
  4. 基于 word2vec 计算文本相似度的话题聚类研究

基于 word2vec 计算文本相似度的话题聚类研究

上传者: 2019-05-28 06:09:28上传 PDF文件 975.76KB 热度 35次
本文设计并实现了一个微博交通内容的热门话题发现及文本聚类系统,便于及时捕获出微博中的交通话题,有助于更快速准确地对交通事件做出预判和决策。为了能在聚类中更准确地对文本进行相似度计算,本文采用word2vec将词语表示成词向量,并提出了一种基10于稠密特征的DC-word2vec算法,通过引入高频网络词组成的高维词表对特征向量进行扩维映射,使其变得稠密化且每一维度都有了具体的实际意义。通过对比其他几类算法的计算相似度准确率,验证了DC-word2vec的效果最佳,并将其应用到K-means聚类中,有效提升了话题聚类的精度。
用户评论
码姐姐匿名网友 2019-05-28 06:09:28

是一篇论文,没有任何代码可参考