Similarity_using_LSH:我们将通过从头开始实现LSH(本地敏感哈希)来检查文本之间的相似性。 使用train.csv数据 源码
利用自然语言处理(NLP)的应用程序最近获得了很多关注,部分原因是人工神经网络的发展。 但是,对于NLP来说,一个特别棘手的问题是在您进入“处理”部分之前就开始了,即对传入文档流进行重复数据删除。 推荐系统,评论论坛和用户反馈系统等在线平台都面临着检测哪些文档相互重复的问题。 由于许多NLP任务在计算上往往很昂贵,因此希望仅将这些过程应用于新文档。 看到重复的文档时所使用的类标签或操作可能与原始文档相同。 保持训练数据中的重复项也很重要,以防止它们不公平地偏向训练后的模型。 某些文档功能的普遍性及其与手头任务的关系可能因同一文档或多个文档的多次重复输入而严重偏离。 显然,在您的后端系统中存储重复的文档也浪费了资源。 您如何确定文档是重复的,或更重要的是几乎重复的? 这就是“ LSH”,又称本地敏感哈希。 相似性_使用_LSH 我们将通过从头开始实现LSH(本地敏感哈希)来检查文本
用户评论