目前了解到ocr大概有两种方法进行:
1、先定位文字位置,在识别文字;
2、直接识别,把目标每“一行”都进行识别,然后汇总成结果。
两种都有很好的应用,各有优缺点。第一种有两个任务,定位+识别,有点像目标检测,确实,定位阶段很多模型会考虑用yolo来做。第二种收到很多因素的影响(图像的纹理,字体之类的),效果并不好。
ocr模型会用到rnn相关的内容。训练的时候,不是拿单个字来训练,都是一条条词汇。
待更新。。。
目前了解到ocr大概有两种方法进行:
1、先定位文字位置,在识别文字;
2、直接识别,把目标每“一行”都进行识别,然后汇总成结果。
两种都有很好的应用,各有优缺点。第一种有两个任务,定位+识别,有点像目标检测,确实,定位阶段很多模型会考虑用yolo来做。第二种收到很多因素的影响(图像的纹理,字体之类的),效果并不好。
ocr模型会用到rnn相关的内容。训练的时候,不是拿单个字来训练,都是一条条词汇。
待更新。。。