classycn 文言文
classycn:古典汉语分句器。数据-警告:数据文件夹大小超过1G!data/sjw -来自Seungjeongwon Ilgi的清理数据-来自古代韩国皇家秘书处的备忘录。超过2亿个字符和16,000多个唯一字符。data/24s -除韩书和三国志外的中国“二十四史”的半清洗数据。数据来自维基文库,可能包含嘈杂的标记。2000万个令牌,12k个唯一身份。数据/向量-使用GloVe和Word2Vec生成的词向量。脚本runhmm -训练和测试来自NLTK的HMM标记器runcrf -从CRF Suite训练和测试CRF标记器runlstm -训练和测试双向LSTM标记器。用Theano实现。联系人:胡一舟@huyz725+github at gmail.com。
相关资源推荐:
下载地址
用户评论