ニューラル ネットワークとデータセットの考え方: データセットが大きいほど、パフォーマンスは向上しますか?

一般に、ニューラル ネットワークとビッグ データの関係は非常に複雑で、影響を与える要因には、モデル サイズ、データ セット サイズ、コンピューティング パフォーマンス、および人的資源や時間などのその他の要因が含まれます。既存のコンテンツの概要は次のとおりです。

1. データ量 VS ネットワークパフォーマンス 

1。概要

Sun らは、「深層学習時代におけるデータの不合理な有効性の再考」の中で、過去 10 年間のコンピュータ ビジョン テクノロジの大きな成功は、1> より複雑なモデル、2> コンピューティング パフォーマンスの向上によるものであるとしています [参考文献 1、参考文献2 ] ]、3> 大規模なラベル付きデータセットの出現。 

最初の質問に関しては、2017 年の 7 層 AlexNet から 2015 年の 101 層 ResNet に至るまで、コンピューティング パフォーマンスとモデルの複雑さは年々向上しており、現在ではより多くのパラメーターを備えた Transformer テクノロジーが登場しています。

2 番目の質問については、1 と 2 を参照してください。一般に、研究者は、GPU を毎年更新することによって、モデル自体を更新するよりも GPU のパフォーマンスの向上によってもたらされるパフォーマンスの向上がさらに高いことを発見しました。新しい GPU によってもたらされる強力な計算により、モデル推論がより高速かつ効率的に行われます。

3 番目の質問については、ディープラーニングがデータドリブンであることは誰もが知っていますが、トレーニング セットを 10 倍、100 倍に拡張した場合、精度は 2 倍になりますか? ボトルネックはありますか? 以下では、この問題に焦点を当てます。 

2. 研究の目的

記事では、近年モデルサイズやGPU性能は向上しているが、データセットは向上していないため、実験検証用に3億枚の画像データセットを構築したと指摘している。彼らの研究目標は次のとおりです。

1) 現在のアルゴリズムを使用して、ノイズの多いラベルを持つ画像がさらに多く提供される場合、視覚的なパフォーマンスを最適化できるかどうか。

2) 分類、物体検出、画像セグメンテーションなどの標準的な視覚タスクの場合、データとパフォーマンスの関係は何ですか。

3) 大規模学習技術を使用して、コンピューター ビジョンの分野でさまざまなタスクを実行できる最先端のモデルを開発します。

3. データ構築

問題はデータ セットをどのように構築するかですが、幸いなことに、Google はコンピューター ビジョン アルゴリズムを最適化するためのデータ セットの構築に熱心に取り組んでいます。Geoff Hinton、Francois Chollet らの努力により、Google は内部で 3 億枚の画像を含むデータセットを構築し、画像を 18,291 のカテゴリに分類し、JFT-300M (オープンソースではありません) と名付けました。

このデータセットの画像にタグを付けるために使用されるアルゴリズムは、複雑な生の Web 信号と、Web ページとユーザー フィードバック間の相関関係をブレンドします。この方法により、これら 3 億枚の画像は 10 億個以上のタグを取得しました (1 つの画像に複数のタグを付けることができます)。これら 10 億のタグのうち、約 3 億 7,500 万のタグが、選択された画像のタグの精度を最大化するアルゴリズムによって選択されました。ただし、これらのラベルには依然としてノイズが存在します。選択した画像のラベルの約 20% がノイズです。簡単に言うと、データ量が増えるとノイズも大きくなり、モデルのトレーニングが難しくなります。

4. 核となる実験結果

著者は実験的検証を通じていくつかの結果を得ました。

* より良い表現学習が役に立ちます

私たちの最初の観察は、大規模なデータが表現学習を促進し、私たちが研究するすべての視覚タスクのパフォーマンスを最適化するということです。私たちの調査結果は、事前トレーニング用に大規模なデータセットを構築することの重要性を示唆しています。これは、教師なし表現学習と半教師あり表現学習方法に良い見通しがあることも示しています。データ サイズにより、ラベルに存在するノイズが抑制され続けているようです。

* トレーニング データの規模が増加するにつれて、タスクのパフォーマンスは対数的に増加します。

おそらく最も驚くべき発見は、視覚的なタスクのパフォーマンスとトレーニング データ量の対数に関するパフォーマンス学習の関係です。この関係は依然として線形であることがわかりました。学習画像サイズが3億枚に達しても、パフォーマンス向上の停滞は見られません。以下に示すように:

* モデルの容量は重要です。

3 億の画像データセットを最大限に活用したい場合は、より大きな (より深い) モデルが必要であることがわかりました。

たとえば、ResNet-50 の場合、COCO オブジェクト検出スコアの向上は非常に限られており、わずか 1.87% ですが、ResNet-152 を使用すると、このスコアの向上は 3% に達します。

※ロングテールトレーニング。

データにはロングテールがありますが、表現学習は機能しているようです。このロングテールは、ConvNet のランダム トレーニングに悪影響を与えることはないようです (トレーニングは依然として収束します)。

* 新しい最先端の結果。

私たちの論文ではモデルのトレーニングに JFT-300M を使用しており、多くのスコアが業界最高レベルに達しています。たとえば、COCO オブジェクト検出スコアの場合、単一モデルは現在、以前の 34.3 AP から 37.4 AP を達成できます。

私たちが使用したトレーニング システム、学習の進行状況、パラメーターは、ImageNet 1M イメージを使用した ConvNet のトレーニングから得られた以前の経験に基づいていることを指摘しておく必要があります。

この作業では最適なハイパーパラメータを探索しなかったため (これにはかなりの計算量が必要になります)、このデータセットを使用したトレーニングから可能な限り最高の結果がまだ得られていない可能性があります。したがって、定量化されたパフォーマンス レポートは、このデータセットの実際の影響を過小評価している可能性があると考えられます。

この作業は、より多くの境界ボックスがモデルのパフォーマンスに影響を与えるかどうかの調査など、タスク固有のデータには焦点を当てていません。課題はあるものの、タスク固有の大規模データセットの取得が今後の研究の焦点となるべきであると私たちは考えています。

また、3 億枚の画像を含むデータセットを構築することが最終目標ではありません。より大きなデータセット (10 億枚以上の画像で構成される) を使用してモデルをさらに最適化できるかどうかを検討する必要があります。

5. その他の実験結果

* トレーニング前のウェイトの微調整は非常に重要です

 

2. トレーニング前のウェイトとパフォーマンスの比較

1。概要

Googleの研究者らは、BigTransfer「Big Transfer (BiT): General Visual Representation Learning」と呼ばれる論文を発表し、従来的な画像データスケールを効果的に使用してモデルを事前トレーニングし、トレーニングプロセスを体系的に実行する方法を検討した深い研究を行っています。

モデルのパフォーマンスに対するデータスケールの影響を調査するために、彼らは、3 つの異なるスケールのデータを利用しながら、現在一般的に使用されている事前トレーニング構成 (活性化関数と重みの正規化、モデルの幅と深さ、トレーニング戦略を含む) を再検討しました。セットには、ILSVRC-2012  (1,000 カテゴリで 128 万枚の画像)、  ImageNet-21k  (21,000 カテゴリで 1,400 万枚の画像)、および JFT  (18,000 カテゴリで 3 億枚の画像) が含まれます。未踏のスケールのデータ。

2. 研究内容

※データセットサイズとモデル容量の関係

著者らは、トレーニング用に ResNet のさまざまなバリアントを選択しました。標準サイズの「R50x1」から x4 幅、さらに深い 152 層の「R152x4」まで、すべて上記のデータセットでトレーニングされました。その後、研究者らは、ビッグデータを最大限に活用したい場合は、モデルの容量も増やす必要があるという重要な発見をしました。

左半分は、データ量の増加に伴いモデルの容量を拡張する必要があることを示しており、赤い矢印の拡大は、大規模なデータセットの下では小規模モデルのアーキテクチャが低下し、大規模モデルのアーキテクチャが向上することを意味します。右の図は、大規模なデータセットでの事前トレーニングが必ずしも改善されるわけではなく、ビッグデータを最大限に活用するにはトレーニング時間と計算オーバーヘッドの増加が必要であることを示しています。

トレーニング時間もモデルのパフォーマンスに重要な役割を果たします。計算オーバーヘッドを調整するために大規模なデータセットに対して十分なトレーニングが行われていない場合、パフォーマンスは大幅に低下します(上図の赤点から青点までの半分が低下)が、適切に調整することでパフォーマンスを得ることができます。モデルのトレーニング時間の大幅なパフォーマンスの向上。

* 適切に正規化された BN はパフォーマンスを効果的に向上させることができます

1> バッチ正規化 BN をグループ正規化 GN に置き換えると、大規模なデータセットでの事前トレーニング済みモデルのパフォーマンスを効果的に向上させることができます。その理由は主に 2 つの側面から来ています。

  • まず、事前トレーニングからターゲットタスクに移行するときに BN の状態を調整する必要がありますが、GN はステートレスであるため、調整の困難が回避されます。
  • 次に、BN は各バッチの統計を利用しますが、この統計は各デバイス上の小さなバッチでは信頼性が低くなり、大規模なモデルでは複数のデバイスでのトレーニングが避けられません。GN はバッチごとに統計を計算する必要がないため、この問題も回避できます。

*転移学習

BERT の構築に使用された手法に基づいて、研究者らは一連の下流タスクで BiT モデルを調整しました。調整プロセスでは非常に限られたデータのみが使用されました。事前トレーニングされたモデルはすでに視覚的特徴を十分に理解しています。

データ サイズ、ILSVRC < ImageNet < JFT-300M. BiT で転移学習を実行するために非常に少ないサンプルを使用した場合、事前トレーニング プロセスで使用されるデータ量とアーキテクチャ容量が増加するにつれて、結果として移行されたモデルのパフォーマンスが低下することが研究者らは発見しました。も大幅に増加した。より小さいデータセット ILSVRC でモデルの容量を増やすと、CIFAR の移行によって得られるゲインは、1 ショットと 5 ショットの両方のケースで小さくなります (下図の緑の線)。大規模な JFT データセットで事前トレーニングする場合、モデル容量の増加により大幅な向上がもたらされます (赤茶色の線で示されています)。BiT-L は 1 つのサンプルと 5 つのサンプルで 64% と 95% を達成できます。 。

3. 結論

この研究では、大規模な一般データのトレーニングの下で​​は、ダウンストリームの大規模な事前トレーニング済みモデルを通じて、ビッグ データ、小規模なサンプル データ、さらには単一のサンプル データに基づく場合でも、単純な移行戦略で印象的な結果を達成できることがわかりました。タスクによりパフォーマンスが大幅に向上する可能性があります。BiT 事前トレーニング モデルは、視覚研究者に ImageNet 事前トレーニング モデルの新しい代替手段を提供します。

3. Zhihu からの 2 つの素晴らしい回答

1. 角度 1

データ量が増加すると何が起こるかについて詳しく説明されている、古典的な教科書 PRML のセクション 3.2を注意深く読むことをお勧めします(もちろん、3.2 を理解するには、まず第 1 章を読む必要があります) 核となる結論は次のとおりです。

データ量が固定されている場合、バイアスと分散の間にはトレードオフの関係があり、一方が増加すると他方が減少します。データ量が増加すると、これら 2 つの項目の合計をさらに減らすことができますが、ノイズ項目を除去することはできません。

したがって、この問題には次のような単純かつ暫定的な結論が得られます。

  • データの量が無制限で、正確に注釈が付けられている場合、モデルに十分な複雑さと精度があれば、理論上、機械学習モデルは完全な関数に適合できます。ちなみに、仮想エンジンを使用してデータを生成するなど、無限に正確なデータを使用するシナリオも可能です。このとき、モデルは限られた時間内で無制限にデータを使用することはできませんが、トレーニングが進むとデータ量が無限になる可能性があります。
  • データ量が無限であっても正確にラベル付けされていない場合、最終モデルの精度はラベルのノイズによって制限されます。
  • データ量が限られている場合、モデルはバイアスと分散の間でトレードオフを行う必要があります。モデルを広範囲のテスト データで安定して実行するには (分散が小さい場合)、モデルの一般的な予測精度は低下します (バイアスが小さい場合)。テスト データの一部のサブセット (バイアスが小さい) で適切なパフォーマンスを発揮するには、モデルが他の可能なテスト データの精度を犠牲にする必要があります。

2. 角度 2

特に、十分なトレーニング データがある場合、汎化誤差は非常に小さくなる可能性があります。これは、古典的な機械学習理論から結論付けることができます。

\数学{H}それが有限空間で 0 <  < 1の場合\デルタ 、任意の場合 h \in \mathcal{H}:
P\left(|E(h)-\widehat{E}(h)| \leqslant \sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m} }\right) \geqslant 1-\delta

\ワイドハット{E}(h)ここで、m は学習データの数を表します。m が無限大に近づくと、つまり学習サンプルが十分にあり、時間の経過とともに学習された識別器と理想的な識別器の差が小さくなります。上式では{E}(h)、 2 つの差は 1 未満であり、これは特に小さいですが、数値が より大きい確率1-\デルタ、つまり、このようなことが起こる確率は非常に高くなります。

 繰り返しになりますが、そのようなネットワークは過剰適合するのでしょうか? オーバーフィッティングは機械学習の分野における重要な問題であり、ネットワーク構造、トレーニング方法、データの難易度などに密接に関係しています。たとえば、データが大きくてもほぼ同じ (データ間の類似性が高い) 場合、現実世界のデータはより複雑であるため、ネットワークは実際には適合不足です。別の極端な観点から見ると、データがは大きいだけでなく異なるため、当然のことながら過学習につながります。

最後に、データ量が膨大になると、ネットワークが飽和状態になる可能性があります。ただし、前の質問と同様に、それはデータの品質に依存します。理想的には、ネットワークを使用して世界中の既知のデータをすべて適合させると、当然、飽和状態になります。

注: 上記の理論では、仮説空間が限られていると述べられています。しかし、トレーニング データが大量にある場合、仮説空間が本当に限られているかどうかは確信が持てないため、この質問にはまだ答えることができません。結局のところ、機械学習はデータに基づいた科学です。

4. 個人的な感想:

データ量、事前トレーニング済みモデルの重み、データ品質、ニューラルネットワーク容量

データが多いほど予測は向上しますが、トレーニング サンプル サイズが大きい場合、ネットワーク層が少なすぎて特徴トレーニングが不十分な場合、トレーニングが不十分になります。したがって、データセットが大きいほど効果は高くなりますが、前提条件の 1 つは、ネットワークの特徴抽出能力が低くなりすぎてはいけないことです (ニューラル ネットワークの容量の問題)。

データ量が大きくなるほど、サンプル サイズの要件も大きくなり、データ品質を向上させる必要があります。ネットワークの学習に悪影響を与えるノイズや類似のデータを多量に含めることはできません。

大規模なデータセットに対する事前トレーニングされたモデルの重みは、他のデータセットに良好な転送効果をもたらします。

参考:

https://blog.csdn.net/emprere/article/details/98858910

https://zhuanlan.zhihu.com/p/144254628

https://www.zhihu.com/question/525413729/answer/2419093179

おすすめ

転載: blog.csdn.net/qq_37424778/article/details/124074888