基于DFA算法的敏感词过滤器实现
敏感词屏蔽是一项重要的任务,基于DFA算法实现的敏感词过滤器。该过滤器具有强大的功能,用户只需提供一个字符串,即可获得经过敏感词屏蔽后的字符串。同时,系统能够智能地忽略无效字符,包括汉字、字母、数字以外的符号。
除了基本的屏蔽功能,该过滤器还提供了其他实用的功能。用户可以灵活地重新选择敏感词库,以满足不同场景的需求。此外,用户还可以通过添加单个敏感词来自定义敏感词库,增强过滤器的适用性。
针对用户的需求,本过滤器还提供了查询字符串是否存在敏感词的功能,而无需进行屏蔽。这使得用户能够更加灵活地使用过滤器,根据具体情况选择合适的操作。
文件说明:
dfa.py为源码,TestDFA.py通过pytest进行性能测试,sensitive_words.txt为默认的敏感词库。此外,DfaApi.py提供了建立运行于web上的API接口,其中text_filter/string命令返回是否存在敏感词以及屏蔽后的字符串,add_new_words/string命令用于向敏感词库添加新的敏感词,change_text/string命令用于修改新的敏感词库,其中string为新文件的路径。
下载地址
用户评论