场景文字识别（目标检测）中的一些疑惑

anchor

https://blog.csdn.net/xyz2107605729/article/details/88854775
第一次出现在 faster R-CNN的论文里，用来解决多尺度问题，以往解决多尺度问题的方法有两种，一是图像金字塔，二是卷积核金字塔，（特征金字塔 FPN feature pyramid network），这两种方式都会引入大量的计算。anchors 机制，引入不同尺寸、不同高宽比的 anchors，较好地解决了多尺度问题
感受野 https://blog.csdn.net/xyz2107605729/article/details/88800711
小目标的 anchor 要稠密，以免漏检目标，大目标的 anchor 要稀疏
感受野大小一般要大于 anchor
anchor 大小的设置对小目标检测影响较大

候选框到 feature map 的转换

非极大值抑制 NMS（non maximum suppression）

https://zhuanlan.zhihu.com/p/48169867
文章中有一些小问题
一些小小的笔误，nms流程的地方，第三步应该是bcd和a计算iou。（这个评论是不对的，NMS是以分类置信度排序进行抑制的，所以，下一条评论较为合理）
nms过程图画错了，应该是同一类的进行nms，对于dog是0.9,0.85,0.01，0.25排序和抑制。nms可以用GPU计算，nms用CPU计算也不是two-stage慢的原因，原因是有大量的proposal都要进行ROI pooling和FC很耗时。

目标检测中的 region proposal的作用

https://www.zhihu.com/question/265345106/answer/294410307 很好地解释了faster R-CNN中的RPN网络

目标检测中的边框回归（Bounding Box Regression）

https://blog.csdn.net/zijin0802034/article/details/77685438

MAP（mean average precision 均值平均精度）

https://blog.csdn.net/katherine_hsr/article/details/79266880

什么是回归问题

参考了知乎上的一些回答

regession 本意有，退化、回到之前状态的含义，最初在研究父母与子女身高的文章中被提出，子女身高有回到人群均值的现象，叫回归。现在，更多的时候，是指做值得预测。
分类问题与回归问题本质上都是要建立映射关系 $f(x) \to y, x \in A, y\in B$
本质区别在于输出空间是否为一个度量空间，而非连续即回归，离散即分类
对于回归问题，其输出空间B是一个度量空间，即所谓“定量”。也就是说，回归问题的输出空间定义了一个度量去衡量输出值与真实值之间的“误差大小”。例如：预测一瓶700毫升的可乐的价格（真实价格为5元）为6元时，误差为1；预测其为7元时，误差为2。这两个预测结果是不一样的，是有度量定义来衡量这种“不一样”的。（于是有了均方误差这类误差函数）。
对于分类问题，其输出空间B不是度量空间，即所谓“定性”。也就是说，在分类问题中，只有分类“正确”与“错误”之分，至于错误时是将Class 5分到Class 6,还是Class 7，并没有区别，都是在error counter上+1。
一般可以通过损失函数来判断分类和回归问题，回归问题常用 square loss
$\frac{1}{n} \sum_{i=1}^n(x_i-x)^2$ ，分类问题常用 log loss（LR），hige loss（SVM）
回归是使样本的预测值与真实值之间的误差最小，分类是使样本被分类的概率最大。
目标检测中的边框回归（Bounding Box Regression），找到一个映射，使生成的边框和真实边框之间的距离尽可能小。可以用上面的回归度量解释，也可以用回归是使预测值与真实值之间的误差最小来解释。

1x1 卷积的作用

http://www.caffecn.cn/?/question/136
cnn里的卷积大多都是多通道的 feature map 和多通道的卷积核之间的操作，如果使用 1x1 的卷积核，可以实现多个 feature map 的线性组合，可以实现 feature map 在通道个数上的变化。连接在普通的卷积层的后面，结合激活函数，可以实现 network in network 的结构。
可以在保持 feature map 尺寸不变（不损失分辨率）的前提下，配合激活函数，增加非线性，把网络做的更深
可以实现矩阵的乘法（？）

损失函数

交叉熵损失

hige 损失

[1] :https://www.zhihu.com/question/21329754
[2] :http://www.10tiao.com/html/506/201703/2651615400/1.html
[3] :https://www.jiqizhixin.com/articles/2017-12-15-2

场景文字识别（目标检测）中的一些疑惑

anchor

候选框到 feature map 的转换

非极大值抑制 NMS（non maximum suppression）

目标检测中的 region proposal的作用

目标检测中的边框回归（Bounding Box Regression）

MAP（mean average precision 均值平均精度）

什么是回归问题

参考了知乎上的一些回答

1x1 卷积的作用

损失函数

交叉熵损失

hige 损失

猜你喜欢