土耳其形态:土耳其语的两级形态分析仪 源码
土耳其形态 土耳其语的两级形态分析仪。 这不是Google的官方产品。 组件 此实现由三层组成: 词汇表: 该层包括覆盖面很广的,可对其进行手动注释并针对词性和音素异常进行验证。 它们旨在用于构建土耳其语自然语言处理工具,例如形态分析仪。 我们提供的基本词典集包括用于注释的202,202个单词的词汇项目。 标签集和注释方案在进行了描述。 形态策略: 该层包括,这些定义以类似于AT&T FSM格式的自定义格式实现(唯一的不同是,我们可以将字符串用作状态名称和每个过渡的输入/输出标签,而不是整数)。 对于每个给定的词性,我们使用这些FST定义后缀模式和语素库,以及它们对应的输出形态特征
用户评论