自适应主题模型:“富主题变得更富裕”问题的解决方案
“丰富主题变得更丰富”(RTGR)问题在主题模型中很普遍,如果不干预分发过程,则会带来错误的主题分发。 在标准LDA(潜在Dirichlet分配)模型中,所有文档中的每个单词都具有相同的统计能力。 实际上,这些词对不同的主题有不同的影响。 在这种思想的指导下,我们通过考虑单词对主题划分的偏见作用来扩展ILDA(无限LDA)。 我们提出了一种自适应主题模型来专门解决RTGR问题。 本文提出的模型适用于三个问题:(1)主题数随文档的收集而变化,适合动态数据; (2)单词具有主题分布的区别属性; (3)采用自适应方法实现自动重采样。 为了验证我们的模型,我们设计了一个主题演化分析系统,该系统可以实现以下功能:每个周期中的主题分类,相邻周期中的主题相关性以及顺序中子主题的强度计算。 在NIPS语料库和我们自己构建的新闻集上进行的实验表明,该系统可以满足给定的需求,结果是可行的。
用户评论