1. 首页
  2. 编程语言
  3. Java
  4. 基于Word2vec的文档分类

基于Word2vec的文档分类

上传者: 2018-12-28 13:32:19上传 PDF文件 338.33KB 热度 41次
首先采用 Google 的 Word2Vec 工具,从海量的文本(本文) 中,使用神经网络学习得到词典中每个词的向量表示。然后根据向量,对词 典中的每个词进行聚类,例如聚类成 500 类(新的“词典”) 。而后,使用工具 对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的 类别。这样类似多媒体技术中讲授的向量空间模型(VSM) ,每个文档都可以 用过关键词词频表示成一个 500 维的向量,这个向量就是这个文档的“特征向 量”。
下载地址
用户评论