场景文字识别(目标检测)中的一些疑惑

anchor

  • https://blog.csdn.net/xyz2107605729/article/details/88854775
  • 第一次出现在 faster R-CNN的论文里,用来解决多尺度问题,以往解决多尺度问题的方法有两种,一是图像金字塔,二是卷积核金字塔,(特征金字塔 FPN feature pyramid network),这两种方式都会引入大量的计算。anchors 机制,引入不同尺寸、不同高宽比的 anchors, 较好地解决了多尺度问题
  • 感受野 https://blog.csdn.net/xyz2107605729/article/details/88800711
  • 小目标的 anchor 要稠密,以免漏检目标,大目标的 anchor 要稀疏
  • 感受野大小一般要大于 anchor
  • anchor 大小的设置对小目标检测影响较大

候选框到 feature map 的转换

非极大值抑制 NMS(non maximum suppression)

  • https://zhuanlan.zhihu.com/p/48169867
  • 文章中有一些小问题
  • 一些小小的笔误,nms流程的地方,第三步应该是bcd和a计算iou。(这个评论是不对的,NMS是以分类置信度排序进行抑制的,所以,下一条评论较为合理)
  • nms过程图画错了,应该是同一类的进行nms,对于dog是0.9,0.85,0.01,0.25排序和抑制。nms可以用GPU计算,nms用CPU计算也不是two-stage慢的原因,原因是有大量的proposal都要进行ROI pooling和FC很耗时。

目标检测中的 region proposal的作用

目标检测中的边框回归(Bounding Box Regression)

MAP(mean average precision 均值平均精度)

什么是回归问题

参考了知乎上的一些回答

  • regession 本意有,退化、回到之前状态的含义,最初在研究父母与子女身高的文章中被提出,子女身高有回到人群均值的现象,叫回归。现在,更多的时候,是指做值得预测。

  • 分类问题与回归问题本质上都是要建立映射关系 f ( x ) y , x A , y B f(x) \to y, x \in A, y\in B

  • 本质区别在于输出空间是否为一个度量空间,而非 连续即回归,离散即分类

  • 对于回归问题,其输出空间B是一个度量空间,即所谓“定量”。也就是说,回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。例如:预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。

  • 对于分类问题,其输出空间B不是度量空间,即所谓“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。

  • 一般可以通过损失函数来判断分类和回归问题,回归问题常用 square loss
    1 n i = 1 n ( x i x ) 2 \frac{1}{n} \sum_{i=1}^n(x_i-x)^2 ,分类问题常用 log loss(LR),hige loss(SVM)

  • 回归是使样本的预测值与真实值之间的误差最小,分类是使样本被分类的概率最大。

  • 目标检测中的边框回归(Bounding Box Regression),找到一个映射,使生成的边框和真实边框之间的距离尽可能小。可以用上面的回归度量解释,也可以用回归是使预测值与真实值之间的误差最小来解释。

1x1 卷积的作用

  • http://www.caffecn.cn/?/question/136
  • cnn里的卷积大多都是多通道的 feature map 和多通道的卷积核之间的操作,如果使用 1x1 的卷积核,可以实现多个 feature map 的线性组合,可以实现 feature map 在通道个数上的变化。连接在普通的卷积层的后面,结合激活函数,可以实现 network in network 的结构。
  • 可以在保持 feature map 尺寸不变(不损失分辨率)的前提下,配合激活函数,增加非线性,把网络做的更深
  • 可以实现矩阵的乘法(?)

损失函数

交叉熵损失

hige 损失

[1] :https://www.zhihu.com/question/21329754
[2] :http://www.10tiao.com/html/506/201703/2651615400/1.html
[3] :https://www.jiqizhixin.com/articles/2017-12-15-2

猜你喜欢

转载自blog.csdn.net/xyz2107605729/article/details/88727349