文本的预处理程序包括如何断句等(非常准确)
1.删除文件中的中文、西文空格2.将篇章切分为一个个的句子,切分标志为:。!?…;等,句中如果有引号,要求左右匹配3.对句子按长度从大到小分行排序。4.在每行句子前加上序号5.统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果
下载地址
用户评论
忘记了,先评一次,下了再评价
很好,很好用,准确
根据符号进行切分存在一定的问题,希望后续改进~
正在研究 不错
你好,下载下来的是什么文件,为什么打不开
感谢楼主,我再稍微改造一下 就可以用 非常感谢
正在做这方面的工具,太棒了
谢谢楼主分享
帮了大忙了,很有学习价值的!
做的挺不错的