1. 首页
  2. 编程语言
  3. 其他
  4. 论文研究基于PBTM的海量微博主题发现.pdf

论文研究基于PBTM的海量微博主题发现.pdf

上传者: 2020-05-18 04:55:39上传 PDF文件 914.87KB 热度 26次
BTM(bitermtopicmodel)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallelbitermtopicmodel),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。
用户评论