自动修改注释
手动注释的语料库是必不可少的资源,但是对于许多注释任务(例如,创建树库),存在具有不同且不兼容的注释准则的多个语料库。这导致对人类专业知识的利用效率低下,但是可以通过将整个语料库中的知识与不同的注释准则进行集成来纠正。在本文中,我们描述了注释适应的问题和解决方案的内在原理,并提出了一系列可以自动适应不同注释格式之间差异的连续增强模型。我们对中文分词和依存关系解析的任务评估算法。对于分词,由于汉语缺乏词法而没有通用的分词指导原则,因此我们对注释进行了改编,从更大的《人民日报》语料库到较小但更受欢迎的宾州中文树库。对于依赖关系解析,我们执行从Penn Chinese Treebank到面向语义的Dependency Treebank的注释自适应,该注释使用明显不同的注释准则进行注释。在这两个实验中,尽管在训练中使用了纯粹的局部特征,但是自动注释自适应带来了显着的改进,实现了最先进的性能。
用户评论