OCR基础网络详解:文字检测与识别
文字识别是图像领域一个常见问题,特别是在自然场景图像中。需要先定位图像中的文字位置,然后进行识别。自然场景图片的文字识别通常包括两个步骤:文字检测和文字识别。文字检测解决文字位置和范围的问题,而文字识别则将定位好的文字区域转化为字符信息。CTPN是一种在ECCV 2016提出的文字检测算法,结合了CNN与LSTM深度网络,能有效检测复杂场景中的横向分布文字。CRNN OCR和attention OCR是基于深度学习的端到端OCR技术的两大主流方法。它们在特征学习阶段都采用了CNN+RNN的网络结构,主要区别在于最后的输出层,即将网络学习到的序列特征信息转化为识别结果的方式。CRNN OCR采用CTC算法进行对齐,而attention OCR则采用attention机制。本部分重点介绍应用广泛的CRNN算法。
用户评论