exchange:Bigram交换算法 源码
交换词聚类算法的高效C ++实现 通过在类之间交换单词来优化bigram的困惑。 评估可以在多个线程中并行进行。 使用词类和类词统计信息来提高效率。 每行假定一个句子。 如果语料库中不存在句子,则将开始和结束标记( 和 )添加到每行。 困惑度值包括句子结尾符号。 更多细节: Martin,Liermann,Ney:bigram和trigram词聚类算法,语音通信1998 Botros,Irie,Sundermeyer,Ney:关于单词类的有效训练及其在递归神经网络语言模型中的应用,Interspeech 2015 编译可执行文件 要求 提供的Makefile可与具有C ++ 11支持的GCC编译器一起使用,例如GCC 4.6或更高版本。 也应该在MinGW上工作。 Zlib库和头文件。 在linux系统上,这些通常包含在软件包zlib1g和zlib1g-dev 。 s
用户评论