1. 首页
  2. 人工智能
  3. 机器学习
  4. 基于LDA高频词扩展的中文短文本分类胡勇军

基于LDA高频词扩展的中文短文本分类胡勇军

上传者: 2019-03-08 04:05:59上传 CAJ文件 623.72KB 热度 37次
针对短文本特征稀疏、噪声大等特点,提出一种基于 LDA 高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用 TF-IDF 方法将短文本表示成向量,再利用 LDA 得到每个文本的隐主题特征,将 概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法
用户评论