1. 首页
  2. 编程语言
  3. 其他
  4. 论文研究基于余弦距离选取初始簇中心的文本聚类研究.pdf

论文研究基于余弦距离选取初始簇中心的文本聚类研究.pdf

上传者: 2019-09-27 18:15:35上传 PDF文件 622.14KB 热度 44次
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM。通过实验验证,该算法在迭代次数减少
下载地址
用户评论