一个关键词标注的工具
很早以前写得一个小工具,后来发现它的用处比我预期的要大,所以整理了一下,供大家参考。 代码用js编写,文件格式hta,双击可以运行,用记事本打开可以修改,后缀改为.htm可以当作网页打开。 标注的颜色:红色是出现最多的,棕色是很多的,蓝色是比较多的。紫色和绿色是停用词,即不具重要含义的可忽略的词,灰色是数字、英文和“的|你|我|他|她|它|们”。 原理是局部统计相邻的两个字,看看其他句子里有没重复的,如果有,就继续看第三个字是否相同,直到最大匹配。 没有用到预定义的词典。 为了突出关键词和提高运行速度,解析时去除了停用词。 核心算法只有十几句,比较容易改造。 目前还不支持数字和英文。
用户评论