1.yoloは何ですか
入力画像、出力画像及びターゲット(ターゲットフレーム)の検出位置
YOLO名の意味:あなたは一度だけ見て
YOLOため、このニューラルネットワーク:
(アンカー、ボックスBの数のS * Sグリッドを想定し、N個のオブジェクトクラスであってもよいです)
入力448 * 448 * 3
出力S * Sが*(5 * B + N)的テンソル
2.CNN YOLOの目標検出
物体検出フィールドに、元の画像の検出のDPMスライディングウィンドウ法は、ほとんどの部分を切り出し、その後、第1の畳み込み演算選択特徴抽出、グラフ全体に特徴抽出、及び次いで畳み込み選択し、次に入力画像分類ニューラルネットワークであります演算処理。方法は、全体の再に基づいて、シーン内の他のオブジェクトとのバウンディングボックスと除去複製オブジェクトを向上させるため、処理を転記分類子ボックスによって評価される検出対象物の画像を含むことができるバウンディングボックスを生成することができる領域全体の提案をRCNN箱のレート(これらの領域は別々の訓練されています)。実際に、彼らは分類問題に変換し、目標検出されています。2015 YOLOの論文は、公的新しいアイデア、回帰問題に変換し、ターゲット検出を前方に置きます。ヨロは、入力画像から、唯一の確率的ニューラルネットワークの後に直接境界ボックスと、それぞれのカテゴリーの境界ボックス。唯一のニューラルネットワークダウンプロセス全体ので、それはエンドツーエンドを最適化することができそう。
ヨロの欠点は:高速で、背景は低いと予測上の確率オブジェクトが存在しません。抽象特性を学習することができ、芸術の肖像画に使用することができます。しかし、位置決め誤差が稀に起こります。
3.Unified検出
第一のサブラスタのS * S。
Bの各格子予測は、ボックスや信頼性スコアの各境界bboxes。
信頼性スコア= P(オブジェクト)* IOUtruth_pred
オブジェクトは、他のバウンディングボックスは、P(物体)= 1、及び0を含む場合
每一个栅格预测n个条件类别概率P(Classi|Object)——在一个栅格包含一个Object的前提下它属于某个类的概率。为每一个栅格预测一组类概率。
在测试的非极大值抑制阶段,对于每个栅格:将每个bbox的置信度和类概率相乘,
class-specific confidence scores=Confidence * P(Classi|Object) = P(classi) * IOU,
结果既包含了类别信息又包含了对bbox值的准确度。然后设置一个阈值,把低分的滤掉,剩下的投给非极大值抑制,然后得到最终标定框。
4.模型训练
首先预训练一个分类网络。在 ImageNet 1000-class competition dataset上预训练一个分类网络,这个网络是Figure3中的前20个卷机网络+average-pooling layer(平均池化层)+ fully connected layer(全连接层) (此时网络输入是224*224)。
然后训练我们的检测网络。转换模型去执行检测任务,《Object detection networks on convolutional feature maps》提到说在预训练网络中增加卷积和全链接层可以改善性能。在作者的例子基础上添加4个卷积层和2个全链接层,随机初始化权重。检测要求细粒度的视觉信息,所以把网络输入把224*224变成448*448。