TesseractOCR语言模型包
TesseractOCR 的语言包是搞文字识别绕不开的资源。训练好的traineddata
文件能让 Tesseract 支持上百种语言,像中文、英文、西班牙语啥的全都能搞定。你要做的,就是把这些文件扔进它的tessdata
目录,配置一下语言参数,文字识别的效果立马不一样,识别率也高不少。
Tesseract 的traineddata
文件本质上就是训练好的模型,包含了字体、字符形状还有各种语言的使用频率。换句话说,它能帮 Tesseract 更聪明地“看图识字”,不管是 PDF 截图、表单,还是验证码,照样能认出来。
支持的平台也挺多,Windows、Linux、MacOS都 OK,用tesseract -l chi_sim
就能切中文识别。社区更新也蛮快,GitHub 上还能找到最新的包和训练工具,如果你想自己训练新的模型,也是可以的,灵活得。
中文用得最多的是chi_sim
,识别简体字还不错。如果你用的是某些含中文的 App,比如发票识别、资料数字化,这包就挺好用的。下载的话,像chi_sim.traineddata这种直接可用,挺方便。
如果你做 OCR 项目,不想受限于商业方案,那 Tesseract 加上这些语言包就是个不错的组合。反应快,资源全,关键是开源免费,用起来没啥心理负担。
哦对了,安装别忘了路径要对,语言参数也别写错,常见的用法是tesseract input.png output -l chi_sim
,你懂的~
下载地址
用户评论