一起养成写作习惯！这是我参与「掘金日新计划 · 4 月更文挑战」的第12天，点击查看活动详情。

前言

为了更好地阅读源码，在进入源码阅读阶段必须先进行理论探究，之后才能结合工程干活。所以本次也是参考了众多大佬的视频，博客进行一个总结。我们先从初代版本V1开始，主要是第一篇论文不多，那么这里主要是关于这个神经网络的一个结构，它后面的一个具体的一个工作流程，这部分主要是分两个部分，一个是训练部分，还有一个是识别部分。这里咱们主要是对整个流程做一个了解分析。

相关资源链接如下： arxiv.org/pdf/1506.02… 参考大牛文章如下： blog.csdn.net/shuiyixin/a… www.cnblogs.com/makefile/p/…

作者简介

在这里插入图片描述这个是相当牛皮的大佬，负责编写了V1，V2，V3 不过后面由于，美国军方曾将YOLO智能识别技术用于军事武器开发，所以他后面退出了计算机视觉方面的研究和工作，所以从后面的V4到V6都是由继任者完成的维护，升级。是一个相当有责任担当且水平超高的大师。

算法简介

这部分是论文里面的在这里插入图片描述

总之这玩意是一个很厉害的计算机视觉识别算法。

那么我们想要去解读这篇文章的目的主要是为了搞清楚，这个YOLO网络的工作过程。前面通过这三篇博文大家应该是对神经网络有很多的了解了。

啊哈~花一天快速上手Pytorch（可能是全网最全流程从0到部署） GitHub 水项目之快速上手 YOLOV5 YOLOV5 参数设定与模型训练的坑点一二三

V1网络结构

相信你已经看过了前面三篇文章（里面有关于CNN神经网络的快速理解与入门CIRAF10实战搭建）所以我们先来简单地看看一看这个神经网络长啥样。在这里插入图片描述

这个就是他的第一代V1的神经网络结构（第五代可能是一个残差神经网络，看代码的时候好像看到了残差结构）

整个过程其实也不是很复杂，整个V1的网络结构还是说，是通过众多的卷积层，池化层，最后得到一个 7 x 7 x 1024 的全连接层，然后经过1 x 1 x 4096 的全连接层然后最后得到一个7x7x30的连接层。

所以整个过程主要还是一个复杂的卷积池化操作，这个很重要。

看看咱们先前搭建过的CIRAF10 在这里插入图片描述

感觉其实也没有复杂到哪里去。无非是神经节点增加了不少，训练算力多了N倍罢了。

识别过程

想要梳理整个过程的话，咱们还是从识别的过程来看，因为这个是咱们最直观的部分。

卷积部分

我们先忽略卷积部分，因为这个还是一个建模的过程。在这里插入图片描述

我们只关注最后面的 7 x 7 x 30 也就是说最后面我们在实际上使用这个模型的时候，输入一张图片，首先这张图片会被缩放成 448x488 的大小 3 是RGB三个通道。最后一通操作得到了 7 x 7 x 30 的玩意。不过这里的7 x 7 并不是说把一张图片变成7 x 7的像素。在这里插入图片描述