clean-text 用户在Web和社交媒体上生成的内容通常很脏。 使用clean-text预处理抓取的数据以创建规范化的文本表示形式。 例如,打开以下损坏的输入: A bunch of \\u2018new\\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_(2016_film)). »Yóù àré rïght <3!« 到这个干净的输出中: A bunch of 'new' references, including [moana](). "you are