是要成为海贼王的男人——日记4.22

号外:其实一直在打Datacastle上的一个比赛,目前第五,但是最近几天暂时不打算打上去,一个周之内,绝对会冲进前三

A.M
烦炸了。。。。。。。。还是昨天那个CRNN项目,warp-ctc的依赖 编译的时候老是TMD出问题,所以一上午木得了。
所以 我TMD今天决定皮一手‘make,makefile和程序的编译链接过程‘的学习,木得办法。

学习目标:

一、make,makefile和程序的编译链接过程 :
https://blog.csdn.net/Stand__out/article/details/51565394
ps:写得挺好,又复习了遍C编译过程:

GCC逐个文件编译过程:编译——》链接——》执行
详细步骤:
预处理:宏替换,删除注释和多余的空白字符,条件编译,文件包含。.i
编译(生成汇编) :gcc检查代码规范性,是否有语法错误,生成汇编 .s
生成机器可识别代码 :将编译生成的.s文件转成.o二进制目标代码 .o
链接 : 动态链接、静态链接
执行

MAKE:
make:是一个命令工具,按照makefile文件的编译方式,进行编译、链接
makefile:是一个存放编译方法的文件

但是。。。。。。。。。。。。。还是没找到之前make编译warp-ctc的答案,还在在github上留言,坐等大佬答疑(https://github.com/SeanNaren/warp-ctc/issues/42
这里写图片描述

二、语音识别:深入理解CTC Loss原理 :

https://blog.csdn.net/App_12062011/article/details/76886954
https://blog.csdn.net/Left_Think/article/details/76370453
ps:昨天错略的看了下CTCLoss,其实这东西也就是用来衡量不等长序列之间相似度,然后神经网络就计算Loss,反向传播梯度,更新权重,类似MSELoss都是种定义Loss的度量方式而已,常用在 语音、自然语言处理等 RNN 输出预测序列与目标序列不等长的问题上。 但是今天还是准备再深入皮一番。

这里写图片描述

CTC空格——表示停顿, 然后在两个空格之间的预测序列,就更加放心的删去重复单元了

里面提到了HMM(隐马尔可夫模型),还好之前在李航的统计学习方法研究过,其实感觉它还跟RNN挺像的,都是此时输出和上一个时刻状态、此时可输入有关

““最近在研究CRNN ,但是这个CTCLoss 看了论文还是感觉没有理解到恰到好处,大佬们有没有 比较易读的资料、或者视频分享一波? 或者说,这个CTCLoss 用于计算 RNN输出序列 和 对应的Label序列 ,到底是怎样计算的?难道不是去空格、去重复 ,然后跟目标序列对比,计算标签错误率嘛,但是我看到论文里面提的类似隐马尔可夫模型那种前向计算的定义公式,感觉很萌比阿,不是 经过CNN之后对应的图像列向量作为一个序列投入到RNN 后,RNN已经产生了对应的输出,然后再转化成 字典数目个分类,然后都取最大的那个字符,然后 不就完了。。。。。。。怎么就 ???我理解的不到位,求大佬指教啊“

这个CTCLoss还没彻底弄明白,先记录下来,好吧,在群里面问大佬这个问题的时候,感觉 对 隐马尔可夫模型和马尔可夫链的理解 完全低下,改日补

三、CTPN 论文了解一下:http://slade-ruan.me/2017/10/22/text-detection-ctpn/

发现想搞明白CTPN,最好先搞明白 faster rcnn
Faster-RCNN算法精读 :https://blog.csdn.net/hunterlew/article/details/71075925
可以,这篇文章还可以,RPN,先对图像进行物体探测,也就是拿九个不同规格的框(anchor)在最后的60乘以40的 map上探测,对应着愿图像的2万多个anchor,经过最大值抑制等操作,选出iou最高的部分探测到物体的anchor,然后投给RCNN 进行分类定位

不过,这块感觉,对他的RPN理解还有些问题,改日补吧

四、CPS-OCR-Engine 一个 票据OCR识别 :https://github.com/JiHanFly/CPS-OCR-Engine
五、其实是想把三、四结合下,生成一种自动识别文字边框+自动解析边框文字的深度神经网络

猜你喜欢

转载自blog.csdn.net/qq_33813365/article/details/80040904