JustSemantics 基于词嵌入的向量聚类助手(word2vec与GloVe)
JustSemantics:词嵌入向量的助手
免责声明:这个项目处于非常早期阶段,适合在非常需要的情况下使用。
它能做什么
JustSemantics读取由word2vec或GloVe生成的矢量文件,并使用Weka的k-means算法对向量进行聚类。
安装
目前,Weka是一个必要的依赖项。它未包含在项目中,但可以轻松找到。使用该项目并非“一键式”安装。我已提供源码,相信你会知道如何配置。编写时,我使用的是Weka 3.7.5和Apache Commons CLI 1.2,你可能也需要类似的配置。
用法
源文件中包含一些帮助选项,可以参考使用。
输入与输出
-
对于word2vec,你需要提供二进制向量文件及簇数量(k表示k-means的聚类数)。
-
对于GloVe,则需要提供二进制向量文件、文本格式的词汇表文件和簇数量。
-
目前版本不生成输出文件,仅会在控制台打印出聚类结果。
下载地址
用户评论