Chinese-Word-Vectors中文字向量集合
字向量的资源不少,但覆盖面广、格式通用的,还真不多。这个就挺实在,14000 多个中文字符的向量,基本常用字都囊括了,用起来省心。嗯,来源是 Chinese-Word-Vectors
的 GitHub issue,第 18 条,讨论区里不少干货。
如果你做中文文本相关的项目,像是搜索、推荐、自然语言啥的,这份向量挺值得一试。格式上一般是.txt
或.vec
,兼容gensim
直接加载,响应也快,不折腾。
另外我顺手扒了点相关文章资源,也一并贴上,像是基于 GloVe 的、Word2Vec 的,还有维基百科训练的,甚至源码也有。你要扩展词量、搞点微调,都能用得上:
- glove 中文词向量
- GWE 中文词向量
- 中文词向量表下载.txt
- word2vector 中文词语向量化实现
- flexible vectors 灵活的向量源码
- Structured Vectors for Chinese Word Representations
- 维基百科中文词向量.zip
- 汉语单词向量合集
- Vectors structsandfind
- Chinese Textual Entailment with Embedding
如果你手头正好在中文分词或者想试试向量聚类,不妨下下来玩玩。跑不起来或者有坑?留言区问问,说不定就有人踩过坑了。
下载地址
用户评论