日语时间表达式识别与日汉翻译研究
基于自定义知识库,提出一种知识库强化规则集以及与统计模型相结合的Et语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类,结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新。同时,融合条件随机场CRF统计模型,提高Et语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度,提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示,Et语时间表达式识别的开放测试F1值达到0.8987,基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。
用户评论