Google: 大きなモデルには、出現する能力があるだけでなく、長いトレーニング時間を経た後に「理解する」能力もあります。

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして参加 —> [大きなモデルと論文投稿] 交流グループ

転載元: Heart of the Machine| 編集者: Chen Ping、Xiao Zhou、Zi Wen

モデルが一定の規模に達すると創発現象が起こりますが、モデルを一定期間学習させると別の現象、つまり「理解」現象が現れることがGoogleの研究でわかっています。

2021 年、研究者は一連のミニチュア モデルをトレーニングする際に驚くべき発見をしました。つまり、長期間のトレーニングの後、最初は「トレーニング データを記憶する」だけであったモデルが、まったく記憶されなくなるまで変化します。このデータは、強力な一般化機能も示しています。

この現象を「グロッキング」といいますが、下図に示すように、モデルを学習データに長時間当てはめると、突然「グロッキング」という現象が現れるようになります。

71bdcf9385f1e794f103d9d3e8fddc25.gif

ミニチュアモデルにはこのような特徴があるので、より複雑なモデルは、より長いトレーニング期間を経て突然「理解」されるようになるのでしょうか?最近、大規模言語モデル (LLM) が急速に発展しています。LLM は世界を豊かに理解しているようです。多くの人は、LLM が記憶したトレーニング内容を繰り返しているだけだと考えています。この記述はどの程度正しいでしょうか? LLM が記憶を出力しているとどのように判断できますか?内容は?、それとも入力データに対して適切に一般化されていますか?

この問題をより深く理解するために、この記事の Google の研究者はブログを書き、大規模モデルの突然の「理解」現象の本当の理由を解明しようとしました。

148e8f1e86b5ea2ee81f69a719c281b3.gif

この記事は、ミニチュア モデルのトレーニング ダイナミクスから始まります。彼らは 24 個のニューロンを備えた単層 MLP を設計し、モジュール加算のタスクを実行する方法を学習するようにトレーニングしました。このタスクの出力が周期的であることだけを知っておく必要があります。 (a + b) mod n の形式。

MLP モデルの重みは次の図に示されており、最初はモデルの重みに非常にノイズが含まれていますが、時間が経過するにつれて周期性を示し始めることがわかります。

a0b1b10705060f42076cc490d1fa56a1.gif

この周期性は、個々のニューロンの重みを視覚化するとさらに明白になります。

8da93fe6b1e6706ce2c7fd5ead3410d7.gif

周期性を過小評価しないでください。重みの周期性は、モデルが特定の数学的構造を学習していることを示しており、これはモデルを記憶データから一般化能力に変換するための鍵でもあります。多くの人は、なぜモデルがデータ パターンの記憶からデータ パターンの一般化に変化するのか、この移行によって混乱しています。

01 シーケンスを試してみる

モデルが一般化しているのか記憶しているのかを判断するために、この研究では、30 個の 1 と 0 のランダムなシーケンスの最初の 3 桁に奇数の 1 があるかどうかを予測するようにモデルをトレーニングしました。たとえば、000110010110001010111001001011 は 0、010110010110001010111001001011 は 1 です。これは基本的に、干渉ノイズを伴う少し複雑な XOR 問題です。モデルが一般化している場合は、シーケンスの最初の 3 桁のみを使用する必要があります。モデルがトレーニング データを記憶している場合は、後続の桁も使用します。

この研究で使用されるモデルは、1200 シーケンスの固定バッチでトレーニングされた単層 MLP です。最初は、トレーニングの精度のみが向上します。つまり、モデルはトレーニング データを記憶します。モジュラー算術の場合と同様、テストの精度は本質的に確率的であり、モデルが一般的な解を学習するにつれて急激に上昇します。

なぜこれが起こるのかは、01 シーケンス問題の簡単な例を使用するとより簡単に理解できます。その理由は、モデルがトレーニング中に 2 つのこと、つまり損失を最小限に抑えることと重量減衰を行うためです。トレーニング損失は、正しいラベルの出力に関連する損失と引き換えに重みを低くするため、モデルが一般化する前に実際にはわずかに増加します。

b5a1bfba504a3b81ef837aa5116d34ea.gif

テスト損失が急激に低下しているため、モデルが突然一般化しているように見えますが、トレーニング中にモデルの重みを見ると、ほとんどのモデルは 2 つの解の間をスムーズに補間しています。後続の気を散らす数字に接続された最後の重みが重みの減衰によって枝刈りされると、高速一般化が発生します。

「理解」という現象はいつ起こったのでしょうか?

「グロッキング」は偶発的な現象であることに注意してください。モデルのサイズ、重みの減衰、データ サイズ、その他のハイパーパラメーターが適切でない場合、「グロッキング」現象は消えてしまいます。重みの減衰が小さすぎる場合、モデルはトレーニング データに過剰適合します。重みが減衰しすぎると、モデルは何も学習できなくなります。

以下の研究では、さまざまなハイパーパラメータを使用して 1 タスクと 0 タスクで 1000 を超えるモデルをトレーニングしています。トレーニング プロセスにはノイズが多いため、ハイパーパラメーターのセットごとに 9 つのモデルがトレーニングされます。青と黄色の 2 種類のモデルだけが「理解」現象を起こしていることがわかります。

064eb4979189bf99772e617179a5bbc9.png

5 つのニューロンによるモジュール加算

モジュロ加算 a+b mod 67 は周期的で、合計が 67 を超えると、答えはラップ現象を引き起こします。これは円で表すことができます。問題を単純化するために、この研究では cos⁡ と sin⁡ を使用して a と b を円上に配置する埋め込み行列を構築し、次の形式で表します。

b6f54d894a132ac1ac88a7869a1f416d.png

このモデルは、わずか 5 つのニューロンを使用して完全かつ正確に解を見つけていることがわかります。


af4533288b9e6b02270c46674df598b6.gif

研究チームは、訓練されたパラメーターを観察すると、すべてのニューロンがほぼ同じ基準に収束していることを発見しました。cos⁡ 成分と sin⁡ 成分を直接プロットすると、それらは基本的に円上に均等に分布します。

次にa32d0e93bb0e51a3f66c32177b77b555.png、周期性が組み込まれていない状態でゼロからトレーニングされており、モデルにはさまざまな周波数が含まれています。

527366c4b572f9a641975f274ca77fd8.gif

61772ebad5d4f1d5ebe39207a1efc56c.gif

この研究では、離散フーリエ変換 (DFT) を使用して周波数を分離しました。1 と 0 のタスクと同様に、いくつかの重みだけが重要な役割を果たします。

05c0d01b028cf220e978e285184f4508.gif

以下の図は、さまざまな周波数でもモデルが「理解」を達成できることを示しています。

ef4264ad7d397d4beb7b6d6dcc835cd8.png

未解決の質問

これで、単層 MLP がモジュラー加算をどのように解決するか、およびトレーニング中にそれが発生する理由についてはしっかりと理解できましたが、記憶と一般化の観点からは、まだ多くの興味深い未解決の疑問が残っています。

どちらのモデルがより制約されていますか?

大まかに言えば、重みの減衰はさまざまなモデルをトレーニング データの記憶を避けるように導く可能性があります。過学習の回避に役立つその他の手法には、ドロップアウト、モデルのダウンサイジング、さらには数値的に不安定な最適化アルゴリズムなどがあります。これらの方法は複雑な非線形な方法で相互作用するため、どの方法が最終的に一般化を引き起こすかを事前に予測することは困難です。

また、ハイパーパラメータが異なると、改善が急激に遅くなります。

3c146f686536deb79524e18fb7c10476.png

一般論より暗記のほうが簡単なのはなぜですか?

ある理論では、トレーニング セットを記憶するには一般化するよりも多くの方法があるのではないかということです。したがって、統計的には、特に正則化がない、またはほとんどない場合には、暗記が最初に起こる可能性が高くなります。重み減衰などの正則化手法は、特定のソリューションを優先します。たとえば、「密」なソリューションよりも「疎」なソリューションが優先されます。

研究によると、一般化は適切に構造化された表現と関連していることがわかっています。ただし、これは必須条件ではありません。対称入力を持たない一部の MLP バリアントは、モジュラー加算を解くときに学習する「循環的」表現が少なくなります。研究チームはまた、適切に構造化された表現が一般化の十分条件ではないことも発見しました。この小さなモデル (重み減衰なしでトレーニングされた) は一般化を開始し、再帰的に埋め込まれたメモリの使用に切り替わります。

以下の図からわかるように、重みの減衰がなければ、メモリ モデルは損失を減らすためにより大きな重みを学習できます。

52633b6ba6ac1e31d74aef184d2318d8.gif

モデルが一般化を開始し、メモリに切り替えてから再び一般化するハイパーパラメータを見つけ出すことも可能です。

f43a07b3ca90eee98c1c55de0479b2c3.gif

より大きなモデルについてはどうですか?

モジュラー加算の解決策を理解するのは簡単ではありません。より大きなモデルを理解できる希望はあるでしょうか? このパスでは、次のものが必要になる場合があります。

1) より多くの誘導性バイアスとより少ない可動部分を使用して、より単純なモデルをトレーニングします。

2) これらを使用して、大規模なモデルがどのように機能するかについての不可解な部分を説明します。

3) 必要に応じて繰り返します。

研究チームは、これが大規模モデルをより効率的に理解する方法になる可能性があり、解釈可能性へのこの機械化されたアプローチは、時間の経過とともに、ニューラルネットワークの学習を可能にするパターンを特定するのに役立つ可能性があると信じています アルゴリズムの啓示は容易になり、さらには自動化されます。

詳しくは原文をお読みください。

元のリンク: https://pair.withgoogle.com/explorables/grokking/

 
  

クリックして参加 —> [大きなモデルと論文投稿] 交流グループ

ICCV/CVPR 2023 ペーパーとコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てくださいe360f5480f498166aab5ec1645729027.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/132288723