いくつかは、学習の深さを考えます

この記事では、意識の書き込みの流れ。学習の記録深さにいくつかの考えをまとめたもので、将来的に随時更新サプリメントに、どこの書き込みに何を考えます。

深い学習との接触がない場合には、私は。私は多くの人々が考えるこれは始めるのは非常に大きく、非常に高いしきい値に必要な技術的、数学的基礎で非常に背が高く感じると私は同じ考えを持っている。深学習のこの印象、私はそれがだと思います大規模な深い学習、人工知能が生じAI自己解釈に関する圧倒的なメディアの報道から、一部、非常に背の高い感じ。実際にはメディアの人々に関連した理論的な根拠はありません、とさえ無いエンジニアリングの背景だけでなく、書かれた記事を引き付けます人々は、時にはそれがニューラルネットワーク、人工知能、勾配爆発、並列コンピューティングの最適化、人々は従来と接触していない、厳しい非常に神秘的な印象に大きな原因となる可能性が非常に高い、様々なものをに関して、必然的過言では、トラフィックをもたらすことができます。

実際には、ニューラルネットワークは早ければそこに数年のように、コンボリューションは、それが長い間広くにおけるパターン認識、画像処理に使用されてきた、新しいものではありません、何も新しいものではない。今、深い学習ラウンド、またはこの段階では倍ので、開発の力を検討し、チップの開発は、より高速なGPUは、優れたコンピューティング・最適化技術、我々は多くのデータを持っているインターネット時代、トレーニング可能畳み込みニューラルネットワークを作るに表示されますそして、だけでなく、理論的なレベルで。訓練大量のデータ、そのような学習の深さは、特に画像処理には、多くの事業分野で優れた性能を持っています。

自然の深さの研究

私は結論をお話しましょう:その本質は、学習サンプルに合わせて最大化するために最も適したコンボリューションカーネル、最も適切な特徴の重みを見つけることです。自然が計算されます。

画像処理には、例えば、従来の方法はどのように行うには?+手動抽出機能の伝統的な機械学習。深行う方法を学びますか?エンドツー学び、もはや手動で自分自身の学習特性の特徴を抽出する必要はありません。
たとえば、次の図は、簡単に、これは猫であることを認識することができ描いています。

あなたは今まであなたの脳は猫と認識されているか疑問がありますか?目、耳、口、尾を通じ、足?またはこれらの組み合わせにより?ここで「耳、口、尾、」など、いわゆるである「機能が。」あなたは、複雑な一連の操作を通して、あなたの脳を理解していないが、それは本当にオペレーションの複雑な一連の結果ではあるが、それは猫だあなたを伝えます。しかし、ニューロンのスピードが速すぎて、あなたはそれを理解していません。

コンピュータのために、上の図は、800×600であり、例えば800 * 600チャートとして、800×600×3の行列は、式を簡単にするためには、例えばグレースケールを使用し、数字のちょうど束であります行列、対応する画素値の値の行列要素がコースを表し、「画素値」をコンセプトに、私たち人間は、コンピュータによってのみ何ピクセル値が与えられていないピクセル値は気にしない、それは、唯一のデジタルです。

その質問には「猫の耳」を表す図形の種類を、「猫の目」を表す数字のどのような、ありますか?ジョブが中に手動で行われる前に。今自動的に行うためのニューラルネットワークである
例えば、1,34,67,89,213の5つの連続した画素値に対して、私はそれが5つのピクセルはフクロウを表しだと思う、これは私のルールです事前に定義された。(もちろん、これは当然の5つの画素猫の頭を表すことができない私の盲目の定義、です)。それは手動で、あなたがそのようなお尻の車を表すことができる画像に車の中で猫の頭を表すことができる写真の猫における車両識別と認識猫(1,34,67,89,213)として、ビジネスを理解する必要がありますか、その意味が異なっていますA。これは不幸な、さまざまな分野、さまざまなルールである、と彼の母親は、ああ、特徴形而上学のエンジニアリング特性であることを何千も識別バンドの最終結果の仕上がり、良い面と悪い特徴を見つける見つけますみなさ特性を測定する方法に焦点を当て、広く変化させる影響、?

学習の深さ、入力が数字のちょうど束である、それは数字の意味を理解していないが、ビジネスを表し、それはちょうど前のライン上の最小損失は、とも言えるような最適なコンボリューション行列を試し、知る必要はありません、性質が計算されます。

ここではまた、伝統的な方法を見ることができ、深い学習の方法は、アイデアは2つのアイデアに完全である。前者はより後者の特徴を抽出することで、ルールの定義を見ている限り、あなたが入力すると、より多くの値入力データであり、十分なデータ品質が十分に良いです、私は自動的に有効に機能して重みを抽出することができるようになります。(もちろん、これはまた、私たちの人々に与えられた意味で、それは実際に数のちょうど束で学ぶため、私たちは、機能と呼んで、この時、彼らはもはやラインは、以下のように肉眼では、見て理解することができなかった点)とすることができるなど、耳の猫の頭を表していない

理由駅に駅の歴史を学ぶことの理由深さ、また前に記載されています大規模なデータ:二つの理由の一つ前。

今では、コンボリューションの概念に来ます。

回旋


なぜ
この畳み込み核エネルギーは、エッジ検出において役割を果たしていますか?あなたは、画像のエッジを判断するためにどのように考えてみて?あなたは、固体のグラフ、それのエッジを与えられた場合は?
たとえば、
明らかにああしませんでした。純粋なカラーチャートので、ピクセル値の各行列は、それがエッジに近すぎる、同じです。エッジではありませんあなたは、隣接する画素と異なる裁判官によって判断され、今探してください。エッジ。今見ていることも大きく違い、より多くの可能性が高いです上記のコンボリューションカーネルは、それが(畳み込み演算が分からない、トップエッセイhttps://www.cnblogs.com/sdu20112013/p/10149529.htmlを見てみましょう)畳み込みの後、今や明らかである。各画素値xは、8 * X +(-1)*周辺画素になっ即ち、8 * X -周辺画素。これは、現在のピクセルの差を比較するための時間であり、周囲の画素は何?だから、完全なコンボリューション行列、グラフィックスは、エッジの効果を持って、プロットしました。

この考え方によると、それは別の異なるコンボリューションカーネルは効果を持っている理由、つまり、我々は異なる特徴が出て抽出されている必要があり理解しやすいです。多くの人々は多くの良いデザインのコンボリューションカーネルは、異なる機能を実行、それぞれ。伝統的な画像処理は、一緒にルールで、独自のビジネスデータは、特徴抽出の適応を完了するためにこれらのコンボリューション・カーネルを使用することです。

好,重点来了.上面说了,"边缘"这个特征被提取出来了,那对这个代表图像边缘的矩阵,叫matrix_a吧,继续找一个卷积矩阵kenerl_a,对其做卷积,得到matrix_b,这个martrix_b什么意义呢?再对这个martrix_b做卷积,得到martrix_c,这个martix_c又代表啥呢?答案是我们不知道,像上面提到的,最终的矩阵绘制出来,可能已经是一个点,一条线了,我们已经无法肉眼识别他们在现实世界的对应物体了.但并不代表这是无意义的,不同于猫的眼睛,耳朵等等这些高级特征,这时候得到的这些点啊线啊,已经是非常抽象的低级特征了.而图片正是由这些大量的低级特征组成的.

深度学习干的啥事?就是寻找成千上万的卷积核,得到成千上万的特征,然后用分类也好,回归也罢,认为我们的目标=特征权重*特征之和.比如obj=0.3*feature1 + 0.5*feature2,obj=1代表猫,obj=2代表狗. 这样拿到一个新的图片,输入给模型,模型通过卷积就计算出对应的feature1,feature2,然后计算obj,然后我们就知道了这张图是猫和狗.

当然,卷积核不是瞎找的,卷积核矩阵里面的数字到底填几,要是一个个瞎试,再牛逼的gpu,再牛逼的芯片也试不完啊.这里面就涉及到损失函数定义,梯度下降了.
详细的去看我机器学习的文章吧,不想看的就知道模型学习的过程里,卷积核的值填什么不是随机乱填的,每次反向传播更新卷积核的时候都是朝着让loss更小,也就是让模型更准确(所谓更准确,是针对你的训练数据来说的,同样的网络结构,你机器上跑出来的模型的参数和别人跑出来的模型参数是不一样的,如果你们的训练数据不一样的话)这样一个目标去更新的就完了.

怎么设计出一种滤波器/卷积核


比如上图的卷积核可以识别右边的曲线.道理也是很显然的,上图的卷积核的形状就是类似我们想要的曲线的形状的.如果遇到类似形状的图像,卷积(对应位置像素值相乘再相加)之后得到的数会很大,反之很小.这样就把想要的形状的曲线识别出来了.

与信号处理的关系

大学的时候,学信号处理,天天就是各种傅里叶变换,完全不知道有啥用.说实在的,大学的很多老师水平其实也不咋地,基本就是照本宣科,要么放万年不变的PPT,可能自己都不能深刻理解,或者与产业界太脱离,完全不讲这些理论的现实应用.其实讲清楚这些现实意义也没那么难么.所以还在上学的同学们,要好好学习啊,要好好学习啊,要好好学习啊,重要的事情说三遍,你现在以为没用的东西,不知道哪天就派上用场了.

现在回头看,卷积不就是离散的傅里叶变换吗. 从信号的角度理解卷积,卷积核不就是滤波器吗,卷积核对图像的作用,不就是对图像这种信号做滤波吗.啥叫滤波,其实也就是特征提取。
傅里叶变换将时域和空域信息-->转换到频域上. 对图像处理而言,我们处理的大部分时候是空域的信息.说人话就是空间信息,对单帧图像而言,我们卷积出来的特征,点也好,线也罢,是一种形状,是空间上的信息. 连续的图像才存在这时间信息,多帧图像是有联系的,比如视频,时域信息就很重要了.

https://www.zhihu.com/question/20099543/answer/13971906

首先说说图像频率的物理意义。图像可以看做是一个定义为二维平面上的信号,该信号的幅值对应于像素的灰度(对于彩色图像则是RGB三个分量),如果我们仅仅考虑图像上某一行像素,则可以将之视为一个定义在一维空间上信号,这个信号在形式上与传统的信号处理领域的时变信号是相似的。不过是一个是定义在空间域上的,而另一个是定义在时间域上的。所以图像的频率又称为空间频率,它反映了图像的像素灰度在空间中变化的情况。例如,一面墙壁的图像,由于灰度值分布平坦,其低频成分就较强,而高频成分较弱;而对于国际象棋棋盘或者沟壑纵横的卫星图片这类具有快速空间变化的图像来说,其高频成分会相对较强,低频则较弱(注意,是相对而言)。

图像的空间信息丢掉了是什么意思

先看CNN中全连接层参数是怎么来的.参考https://zhuanlan.zhihu.com/p/33841176.

以VGG-16举例,在VGG-16全连接层中,对224x224x3的输入,最后一层卷积可得输出为7x7x512,如后层是一层含4096个神经元的FC,则可用卷积核为7x7x512x4096的全局卷积来实现这一全连接运算过程。

这样做会有什么好处和问题?

好处和坏处是一样的,就是去除掉位置信息的影响.主要看你处理的是什么问题.对分类来说,我们不关心位置,希望某种像素组合被识别为某种特征,我们不在乎这种像素组合在图片矩阵的什么位置出现,我都要能识别它,这时候就是好处.

但是对于图像分割来说,就是坏处了.因为我需要知道位置信息.比如需要知道图片里的猫在左上角还是右下角,这样才能准确分割.所以分割模型会用卷积层替代掉全连接层.

在我写这篇文章的时候,我做了一点google,想看看有没有人写过类似的主题,发现有2篇文章写的很好,我也引用了部分图,推荐之。

おすすめ

転載: www.cnblogs.com/sdu20112013/p/10958960.html