OCR Roadmap

来源

预习阶段 OCR基础:CNN和RNN

CNN预习视频:卷积神经网络与计算机视觉

  • 知识点1: 卷积神经网络结构分析
  • 知识点2: 过拟合与随机失活
  • 知识点3: 卷积神经网络理解
  • 知识点4: 典型网络结构详解
  • 实战项目: 利用ResNet与inception解决一般图像分类问题套路

RNN预习视频:循环神经网络与自然语言处理

  • 知识点1: 循环神经网络
  • 知识点2: 长时依赖问题与长短时记忆网络
  • 知识点3: BPTT算法
  • 实战项目: 利用循环神经网络生成文本作诗

第一阶段 一览OCR技术和字符识别

第一课 OCR技术概览

  • 知识点1: 什么是OCR
  • 知识点2: 常见应用概览,比如印刷体识别:文档识别、车牌识别、证照/名片/票据识别、视频/图像理解、拍照搜题等,以及手写识别:在线识别、离线识别
  • 知识点3: 基本流程:预处理、版面分析、文本行定位、字符识别、后处理
  • 知识点4: 常见OCR工具:Tesseract、Abbyy、百度OCR API、科大讯飞OCR API
  • 实战项目: Tesseract 搭建第一个OCR引擎

第二课 单字符分割与识别

  • 知识点1: 单字符识别(模版匹配、特征提取 + 传统分类器、CNN模型)
  • 知识点2: 字符分割1:定位候选分割位置(基于投影规则的候选位置提取、基于模型的候选位置提取)
  • 知识点3: 字体分割2:分割路径选择(Viterbi算法 / Beam Search、PCFG / 2D-PCFG)
  • 实战项目: 基于CNN的单字符识别与过分割

第三课 字符序列识别

  • 知识点1: 概览RNN以及LSTM + CTC、CRNN、RARE
  • 知识点2: 概览注意力机制Attention,以及DRAM / DRAW、Transformer
  • 实战项目: 实战CNN和RNN的综合体CRNN

第二阶段:掌握文本定位与文本检测

第四课 文本行定位

  • 知识点1: 传统方法(基于投影的文本行定位、基于最小生成树的文本行定位)
  • 知识点2: 深度学习(Full-Page Text Recognition: Learning Where to Start and When to Stop、Learning Text-Line Localization with Shared and Local Regression Neural Networks、TextSnake)
  • 实战项目: 实战Text Line Extraction Based on MST

第五课 自然场景中的文本检测

  • 知识点1: Reading Text in the Wild with Convolutional Neural Networks
  • 知识点2: CTPN、RRPN、FTSN、DMPNet、EAST
  • 知识点3: SegLink、PixelLink
  • 知识点4: Textboxes、WordSup、FOTS
  • 实战项目: 实战场景文本检测之CTPN算法

第三阶段 掌握其他图像问题

第六课 图像质量增强和预处理

  • 知识点1: 图像增强(去模糊、超分辨率重建)
  • 知识点2: 二值化(全局阈值、局部阈值:克服局部光照和噪声、基于学习的方法)
  • 知识点3: 旋转 / 扭曲变形(角度估计与矫正、扭曲复原与DocUNet)
  • 实战项目: 实战生成对抗网络GAN的变体SRGAN

猜你喜欢

转载自www.cnblogs.com/cirual/p/11610723.html
OCR