SRILM源代码仔细分析
SRILM源代码阅读笔记。
主要针对SRILM的ngram的训练,即ngram-count。
7个文件:
1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具);
2.ngram-count.jpg:从语料训练出模型的主要流程;
3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度;
4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率
以及backoff权值的过程;
5.ngram.read.jpg:与训练
下载地址
用户评论