光学字符识别(OCR)
OCR是指对图片中的文字进行查找、提取、识别的一种技术。
一般步骤:
文字检测、文字识别
评估指标
拒识率(召回率)、误识率、识别速度、稳定性
CTPN
步骤:
检测文本:16像素小区域,每个proposal(提议)使用10个锚点高度在11-273之间(0.7).细粒度的文本提议
利用RNN连接多个proposal。使用双向LSTM利用前后两个方向的信息对proposal进行连接
边沿细化。
缺陷:针对极小尺度文本检测有遗漏,对非文本的水平的检测效果并不好。
SegLink segment和link
(x,y,w,h,)
文字识别技术
CRNN (CNN + RNN) +CTC
网络结构:
特征提取
将特征图拉伸成特征向量
序列标注
转录
除掉重复值,修改错误值,误差使用前向算法进行反向传播,应用随时间反向传播(BPTT)进行计算
网络训练
使用随机梯度下降(SGD)进行训练。梯度由反向传播算法计算。