1. 首页
  2. 编程语言
  3. 其他
  4. simhash算法库simhash.zip

simhash算法库simhash.zip

上传者: 2019-09-21 19:30:41上传 ZIP文件 4.37MB 热度 37次
专门针对中文文档的simhash算法库简介此项目用来对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。详见SimhashBlog特性使用 CppJieba 作为分词器和关键词抽取器使用 jenkins 作为hash函数hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。依赖g(version>=4.1recommended),orclang.用法mkdir build cd buildcmake ..make演示./bin/simhash.demo结果如下:文本:"我是
下载地址
用户评论