1. 首页
  2. 考试认证
  3. 其它
  4. classycn 文言文

classycn 文言文

上传者: 2024-07-16 19:50:59上传 ZIP文件 496.95MB 热度 10次

classycn:古典汉语分句器。数据-警告:数据文件夹大小超过1G!data/sjw -来自Seungjeongwon Ilgi的清理数据-来自古代韩国皇家秘书处的备忘录。超过2亿个字符和16,000多个唯一字符。data/24s -除韩书和三国志外的中国“二十四史”的半清洗数据。数据来自维基文库,可能包含嘈杂的标记。2000万个令牌,12k个唯一身份。数据/向量-使用GloVe和Word2Vec生成的词向量。脚本runhmm -训练和测试来自NLTK的HMM标记器runcrf -从CRF Suite训练和测试CRF标记器runlstm -训练和测试双向LSTM标记器。用Theano实现。联系人:胡一舟@huyz725+github at gmail.com。

相关资源推荐:

  1. N gram模型和机器学习的汉语分词算法

  1. 基于机器学习的古代汉语切分标注算法

  1. HanLP汉语言机器挖掘包

  1. ICTPOS汉语词性标记集

  1. Jiayan甲言专注于古代汉语古汉语古文文言文文言处理的NLP工具包

下载地址
用户评论