similar sentence mapreduce 在hadoop框架中挖掘海量数据集可选项目
你的任务是快速找到词级编辑距离最多为1的句子对的数量。如果S1可以通过以下方式转换为S2,则它们处于编辑距离1的两个句子S1和S2:添加、删除或替换一个字。例如,考虑以下每个字母代表一个单词的句子: • S1: ABCD • S2: ABXD • S3: ABC • S4: ABXC然后对以下句子对的单词编辑距离为1或更小: (S1, S2 ), (S1, S3), (S2, S4), (S3, S4)。输入数据有9,397,023个句子,每个句子由一个新行分隔,句子id位于行首。 zip压缩文件大小约为500MB,位于此处。输入数据中的所有句子的长度至少为10个单词。可以使用一种直接的LSH方法(如课堂上教授的jaccard相似性方法)来解决这个问题,但它不一定是更快的方法。尝试了一堆不同的废话以使其更快,但由于此问题是
用户评论