1. 首页
  2. 编程语言
  3. Python
  4. python实现simhash算法实例

python实现simhash算法实例

上传者: 2022-04-29 21:15:59上传 PDF文件 78.33 KB 热度 38次

Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3。该方法的缺点如优点一样明显,主要有两点,对于短文本,k值很敏感;另一个是由于算法是以空间换时间,系统内存吃不消。

下载地址
用户评论