勾配降下法アルゴリズムの新しいアイデア

ジョンズ・ホプキンス大学の応用数学と統計学の助教授ベンジャミン・グリマーは、勾配降下法アルゴリズムを理解するまったく新しい方法を提供します。

機械学習の世界では、最適化問題は非常に重要であり、最適化問題は世界をより良い場所にすることができます。最適化問題では、携帯電話の GPS が目的地までの最短ルートを計算したり、旅行 Web サイトが旅程に合った最安の航空券を検索したりするなど、何かを達成するための最適な方法を見つけようとします。同時に、機械学習アプリケーションはデータのパターンを分析することで学習し、特定の最適化問題に対して最も正確かつ人道的な答えを提供しようとします。

単純な最適化問題の場合、最適な解を見つけることは単なる算術の問題です。1847 年、フランスの数学者オーギュスタン ルイ コーシーは、かなり複雑な例である天文学的な計算を研究しました。当時、彼は現在勾配降下法として知られる一般的な最適化手法を開拓しました。これは、最適化手法の中で最も古典的で最も単純な 1 次法の 1 つです。

現在、その複雑さの低さと単純さのおかげで、ほとんどの機械学習プログラムは勾配降下法に大きく依存しており、他の分野でもデータ分析やエンジニアリング問題の解決に使用されています。数学者は 100 年以上かけて勾配降下法を完成させてきました。しかし、先月の論文では、勾配降下法に関する基本的な仮定が間違っている可能性があることが示唆されました。

この論文は「ロングステップによるより速い勾配降下法」であり、唯一の著者はジョンズ・ホプキンス大学の応用数学と統計学の助教授であるベンジャミン・グリマー氏です。彼は自分が見つけたものに、まるで直感が打ち砕かれたように驚いた。

彼の直観に反する結果は、与えられた問題に対する最良の答えを見つけるために長年確立されてきたルールが破られた場合、勾配降下がほぼ 3 倍高速になる可能性があることを示しました。より具体的に言うと、研究者が長年信じてきたことに反して、勾配降下法アルゴリズムは予想外に大きなステップ サイズを含めることでより高速に動作できると彼は主張しています。

論文アドレス: https://arxiv.org/pdf/2307.06324.pdf

この理論的な進歩は、より困難な問題を解決するための機械学習には適用できないかもしれませんが、研究者が勾配降下法についての理解を再考するよう促す可能性があります。

MITの最適化研究者Shuvomoy Das Gupta氏は、「勾配降下法の背後にある理論を完全には理解していないことが判明した。今回の研究により、勾配降下法の役割の理解にさらに近づいた」と述べた。

この論文は、コンピューター支援解析技術を使用して、滑らかな凸最適化における勾配降下法でおそらくより速い収束速度を確立します。ここで著者らは、ほとんどの一次法の分析で使用される典型的な単一反復帰納法ではなく、複数の反復にわたる 1 回の反復の全体的な効果を分析し、非一定のステップサイズ戦略を可能にします。

結果は、ステップ サイズが大きくなると、短期的には目標値が増加しますが、長期的には明らかに高速な収束が達成されることがわかります。さらに、著者は簡単な数値検証を通じて、O (1/T log T) 勾配降下速度の高速化を証明する予想も提案します。

具体的には、著者らの証明は、半定値プログラム (SDP) として特定のアルゴリズムの最悪の場合の問題インスタンスを計算または制約する性能推定問題 (PEP) のアイデアに基づいています。相関 SDP に対する実行可能な解が存在するため、著者らは非一定ステップ サイズ モードを適用した後の降下保証を証明し、より高速な収束保証を取得します。

実際には、明らかに高速な非一定ステップ勾配降下法を設計することは、大きな平均ステップ サイズ値を持つ単純なステップ サイズ パターンを見つけることになります。与えられたパターンの証明は簡単で、半正定計画法を使用して行うことができます。定理 3.1 を参照してください。以下の表 1 は、ますます高速な収束保証を備えたダイレクト ステップ モードを示しています。各モードは、コンピューターで生成された正確な算術半定値プログラミング ソリューションを使用して検証されています。将来の研究では、より大きなステップ サイズを持つ直接モードや、その他の扱いやすい非定数の周期的なラージ ステップ戦略が特定される予定です。 ただし、長い直接ステップ パターン h を見つけるのは難しく、すべての直接パターンのセットは非凸であるため、無駄な局所検索が行われることがよくあります。表 1 に示すように、長さ t = 2^m − 1 のパターンは、 t = 2^m−1 − 1 を 2 回繰り返し、間に新しい長いステップを追加し、長さ 2^m を手動で −1 短くすることによって作成されます。 −1 サブパターンの長いステップ。著者らによれば、この再帰パターンは、以前の研究における二次最小化の円形およびフラクタルのチェビシェフ パターンと強い類似性を持っており、それらの間の関連性はまだ実証されていません。

著者らによると、彼らのアプローチは、ペンの最適化研究者であるジェイソン・アルチュラー氏が最初に提案したものと非常によく似ており、長さ2または3のステップを繰り返すパターンを確立し、最小化に向かってより速く縮小して、滑らかで強く凸状の最小変化を達成しました。

詳細については、原著論文を参照してください。ワオソフト アイオット http://143ai.com

小さなステップから大きなステップまで、長さの限界を突破

小さいステップ サイズがより良いということは誰も証明できませんが、この分野の常識は何十年もの間、小さいステップ サイズを使用することであったことを私たちは知っています。これは、勾配降下方程式ではステップ サイズが 2 以下であることを意味します。

コンピュータ支援技術の進歩に伴い、最適化理論家はこれまで以上に極端な手法をテストし始めています。ジャーナル「数学的プログラミング」に最近掲載された研究で、ダス・グプタらは、メタ最適化問題の一種である、50 ステップに制限されたアルゴリズムの最適なステップ サイズを見つけるようにコンピューターに依頼しました。彼らは、最適な 50 ステップの長さは大きく異なり、シーケンス内のステップは長さ 37 にほぼ達しており、一般的な上限である長さ 2 をはるかに上回っていることがわかりました。

論文アドレス: https://link.springer.com/article/10.1007/s10107-023-01973-1
この結果は、最適化研究者が何かを見逃していることを示しています。そこで、グリマーは好奇心から、ダス グプタの数値結果をより一般的な定理に変換しました。50 ステップという任意の上限を破るために、彼は反復可能なシーケンスの最適なステップ サイズを調査し、反復するたびに最適な答えに近づきました。グリマー氏は、コンピューターに一連のステップを何百万回も並べ替えて、最も速く答えに収束するステップを見つけさせました。

Grimmer は、最速のシーケンスには常に中間ステップが大きいという共通点があり、そのサイズは繰り返されるシーケンスのステップ数に依存することを発見しました。3 ステップ シーケンスの場合、ストライドの長さは 4.9 です。15 ステップ シーケンスの場合、アルゴリズムはステップ サイズ 29.7 を提案します。テストで最長の 127 ステップ シーケンスの場合、中央の最大ステップ サイズは 370 です。最終結果は、シーケンスが連続した小さなステップよりもほぼ 3 倍速くスイート スポットに到達することを示しています。

理論は新しいが、現在の使用法を変えることはできない

このループ手法は、勾配降下法に対する異なる考え方を表していると、フランスのエコール工科大学の最適化研究者であるアイメリック・デュールヴー氏は述べています。「私の直感は、問題を段階的に考えるのではなく、複数の段階を続けて考えるべきだと教えてくれます。多くの人がそれを見逃していると思います。」と彼は言いました。

しかし、これらの洞察は研究者による勾配降下法についての考え方を変えるかもしれませんが、おそらくこの技術の現在の使用方法を変えることはありません。結局のところ、グリマーの論文は、滑らかな関数、鋭い曲がりのない滑らかな関数、および底に単一の最適値を持つボウルのような形状の凸関数のみを対象としていました。これらの機能は理論的には基本的なものですが、実際にはそれほど重要ではありません。機械学習の研究者が使用する最適化手順は、通常、はるかに複雑です。

モントリオール大学の最適化と機械学習の研究者であるゴーティエ・ジデル氏は、技術の改良によりグリマーのラージステップ法を高速化できる可能性があるが、それらの技術の実行には追加のコストがかかると述べています。そのため、人々は常に、ステップ サイズを正しく組み合わせれば、従来の勾配降下法が成功することを期待してきました。残念ながら、新しい研究による 3 倍の高速化では十分ではありませんでした。

ジデル氏は、「わずかな改善が見られるが、本当の問題は、この差を本当に縮めることができるのかということだと思う」と自身の疑問を投げかけた。

これらの結果は、著者らを夜眠れなくさせた別の理論上の謎も提示しています。なぜ理想的なステップ サイズのパターンはすべてこのように対称的な形状になるのでしょうか? 最大のステップが常にちょうど中央にあるだけでなく、その両側でも同じパターンが発生します。シーケンスをズームインして細分化し続けると、大きなステップが小さなステップで囲まれた「ほぼフラクタル パターン」になります。この繰り返しは、根底にある構造が最適解を支配していることを意味しますが、それはまだ誰も説明できません。

しかし、この記事の著者は少なくとも、「このパズルは、私が解けなくても、他の誰かが解けるだろう」という希望を持っています。

元のリンク: https://www.quantamagazine.org/risky-giant-steps-can-solve-optimization-problems-faster-20230811/

社長に敬意を表して~

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/132266675