生成的敵対的市場モデルを使用した強化学習ベースの取引の一般化の改善

生成的敵対的市場モデルを使用した強化学習ベースの取引における一般化の改善
最初の部分。

導入

ポートフォリオ管理は、クオンツ取引の長年にわたる構成要素であり、特定の金融商品間で資金を継続的に再配分することにより、事前定義された効用関数を満たすことを目標としています。ポートフォリオ管理へのアプローチは、1) 従来のアプローチ (モメンタム[1]や逆張り戦略[2]など)、2) 機械学習手法 (パターン マッチング[3]など)、および 3) に基づく 3つのタイプのいずれかに分類されます。強化学習 (RL) メソッド[4][5]ディープ ニューラル ネットワークの活発な開発に伴い、多くの研究者がディープ ラーニングと RL を組み合わせ、外国為替取引 [6]、ポートフォリオ管理 [4]、[5]、[]  、  [ 8]とマーケットメイク[9]

最も成功している RL 研究では、現実的な物理エンジンまたは動的に相互作用するエンティティを使用してトレーニング環境を構築しています。たとえば、AlphaZero  [10]は、セルフプレイを通じてボード ゲームをプレイするエージェントをトレーニングします。ここで、セルフプレイとは、エージェントが直面する環境、つまりプレイヤー エージェントが対戦する環境が、以前のすべての反復からニューラル ネットワークによってトレーニングされた最高のプレイヤー (エージェント) によって生成されることを意味します。トレーニング エージェントは、自身の動作に応じて継続的なフィードバックを取得し、トレーニング環境とエージェントの間に堅牢で妥当な相互関係をもたらします。ただし、RL ベースのポートフォリオ管理に関する研究はあまり成功していません。このような研究では、過去の価格データは依然として訓練環境を構築するために直接使用されています [4], [5] , [7] , [8]. エージェントの観点からは、そのような訓練行動からのフィードバックは反応しません. したがって、エージェントは、このような無反応なトレーニング環境に対してアクションを最適化する際にいくつかの問題に直面します。まず、環境から取得した状態は、エージェントの動作とは無関係です。このような応答しない環境とのエージェントの相互作用は、マルコフ決定過程 (MDP) の定義に違反する可能性があります。MDP 定理は、状態遷移を現在の状態とアクションに依存するものとして明示的に定義しています。MDP 定理は RL の基本的な定理であるため、MDP の定義に違反すると、RL ベースのポートフォリオ エージェントの最適化プロセスが不合理になる可能性があります。第二に、この無反応性は、環境が市場でのエージェントの行動に適切に反応しないことを意味します。つまり、過去の価格データに基づいて構築された環境では、エージェントの市場への影響をモデル化できません。その結果、過去の価格データを使用して最適化されたエージェントは、一般化が不十分になる可能性があります。サンプル内 (トレーニング) データから構築された取引知識は、サンプル外 (テスト) に適用できません。モデルがトレーニング データにどれだけうまく適合しても、一般化が不十分なモデルは、実際の意思決定の問題を解決するのに役に立ちません。したがって、一般化は、RL ベースのポートフォリオ管理モデルを構築するために克服しなければならない最大のハードルと見なすことができます。[9]、[11]環境にランダム化を注入することにより、RL ベースのトランザクション エージェントの一般化能力を向上させます。ただし、これらの研究のほとんどは、過去の価格データを使用して環境を構築しており、ランダム ノイズの注入は上記の問題に直接対処していません。

私たちの意見では、上記の問題に対処するために 2 つの解決策を使用できます。1 つ目は、RL ベースのポートフォリオ エージェントを実際の証券取引所対話させて、ポートフォリオを最適化することです。2 つ目は、別の AI モデルを使用して、RL エージェントがやり取りする実際の仮想市場を構築することです。最初の解決策は、実際の金融市場での取引結果に対する報酬に基づいています。ただし、このソリューションはコストが高く、エージェントが収束するのに必要なデータ収集時間が比較的長いため、RL ベースのポートフォリオ最適化に実際に適用することはできません。2 番目のアプローチは、私たちの主な貢献があるところです。私たちの研究では、敵対的生成ネットワーク (GAN) のバリアントが提案され、過去の指値注文の分布をモデル化することによって成行注文の動作をシミュレートします。次に、生成モデルを使用して、エージェントのトレーニング環境として合成証券取引所を構築します。提案された学習フレームワークにより、エージェントは取引決定に対するシミュレートされた市場の反応を得ることができます。そうすることで、状態と行動の因果関係が強化されます。さらに、証券取引所をシミュレートすることで、エージェントが状態遷移プロセスに参加できるようにすることで、エージェントが MDP の定義に違反することを防ぎます。これにより、RL フレームワークを支える基本的な定理が確実に保持されるようになり、ポートフォリオ最適化における RL の使用が正当化されます。シミュレートされた証券取引所とやり取りすることで、エージェントは以前には予測できなかったより広い範囲の市場状況を調査でき、トレーニング データセットもより多様になります。私たちの知る限りでは、エージェントの一般化を改善することを目的として、生成モデルを使用して RL ベースのポートフォリオ管理シミュレーションで金融市場を再構築する最初の研究です。この研究の主な貢献は次のとおりです。

  • リミット オーダー ブック (LOB)-GAN として知られる生成モデルは、過去のリミット オーダーの下での分布をモデル化しますLOB-GAN は、市場における投資家全体の注文行動をシミュレートするために使用されます。

  • 指値注文変換モジュールを導入して、LOB-GAN が注文価格と対応する数量を直接予測する代わりに相対的な注文数量を合成できるようにします。

  • LOB-GANのジェネレーターとセキュアなマッチングシステムを連携させることで、仮想市場と呼ばれる総合証券取引所が構築されます。仮想市場は、エージェントの取引決定に基づいて、シミュレートされた市場の反応を提示できます。

  • 仮想市場を利用したポートフォリオ最適化のための新しい RL ベースの学習フレームワークが提案されています。フレームワークは、アクションと遷移状態の間のより緊密な相互関係を確立することにより、MDP の定義が決して違反されないようにします。

本書の残りの部分は次のように構成されています:セクション II は文献をレビューします;セクション III は仮定を述べ、問題を定義します;セクション IVは提案された市場行動シミュレーター、仮想市場の構築、およびその他の一般化戦略を提示します;セクション Vは提案されたRL ベースのポートフォリオ最適化フレームワーク。セクション VI で実験結果を示し、セクション VII で論文をまとめ、今後の研究の方向性について説明します

第二部。

文献展望

このセクションでは、金融における RL の活用、RL の一般化手法、および人工市場シミュレーションに関する 3 つの文献を概説します。

A. 財務強化学習

RL は、マーケット メイキングや外国為替取引など、いくつかの金融分野で広く使用されており、特にポートフォリオ管理において重要です。このセクションでは、強化学習ベースのポートフォリオ管理に関する文献を確認することに焦点を当てます。経験則として、ポートフォリオ管理は、ポートフォリオの選択、重み付け、リバランスの 3 つの主要なステップに分けることができます。ポートフォリオの選択では、ポートフォリオ資産の選択に焦点が当てられ、ポートフォリオの重み付けではプロセスによって資本配分が決定され、ポートフォリオのリバランスでは、ポートフォリオの重み付けを変更するかどうか、またいつ変更するかが決定されます。Sbruzzi等。 [12]ポートフォリオ選択に焦点を当て、資産プール選択エージェントが選択戦略を最適化する RL フレームワークを使用します。ら。 [4] は、提案された AlphaStock メソッドを使用して、ポートフォリオの選択と重み付けのプロセスを橋渡ししました。具体的には、著者はポートフォリオ資産間の相互関係を把握するために、 AlphaStock で特殊なCross-Asset Attention Network (CAAN) メカニズムを策定します。生姜など。 [7]ポートフォリオの重みに焦点を当て、Equal Independent Evaluator Ensemble (EIIE) トポロジーを提案しています。彼らのポートフォリオ選択戦略は、学習フレームワークで取引コスト (アルゴリズム取引戦略の実行における重要な問題) を考慮して、取引量に直接基づいています。著者は、EIIE トポロジを使用して、いくつかの時系列特徴抽出モデルを調べます。シら [5]同じ独立した初期 (EIII) トポロジーのアンサンブルで EIIE トポロジーを拡張します。これは初期ネットワークを利用して、異なるサイズの価格変動を同時に検討します。彼らの実験結果は、EIII トポロジーが元の EIIE よりも優れたポートフォリオ パフォーマンスをもたらすことを示しています。ら。 [8] は、状態拡張 RL (SARL) トポロジーで EIIE トポロジーも拡張しました。このトポロジーでは、異種データセットに協力を導入して、エージェントがより適切な予測を行えるようにします。トング待って。 [13] は、複数のソースを組み合わせることも強調しています。ここでは、事前トレーニング済み GAN の従来のメトリックとモジュールがそれぞれ異なるデータ ストリームを構成します。李ら [14] は、スタックされたノイズ除去オートエンコーダ (SDAE) を利用する新しい RL アルゴリズムを適用して、堅牢な状態表現を取得することを目標にエージェントを構築しました。これらの進歩にもかかわらず、RL ベースのポートフォリオ最適化に関するほとんどの研究では、履歴データを使用してエージェントを最適化しているため、エージェントの一般化能力が低下する可能性があります。

B. 強化学習における一般化

強化学習における一般化の問題は、さまざまな分野で研究されてきました。ウィットソン等。 [15] は、一般化の問題をタスク上のバリアントとタスク外のバリアントに分割します。タスク内バリアントでは、トレーニング軌跡で最適化されたエージェントが同じ環境のテスト軌跡でうまく機能する場合、一般化は満足のいくものです。オフタスク バリアントでは、エージェントがトレーニング環境とは異なる環境でうまく機能する場合、一般化は満足のいくものです。強化学習で一般化問題を解決するために使用される方法は、5 つのカテゴリに分けることができます。

  • 正則化方法:ドロップアウトや L2 正則化などのさまざまな手法を適用して、限られた状態空間でエージェントが過剰適合するのを防ぎます[16]イグルら。 [17] は、RL への適応性を向上させるために、正則化効果を維持しながら勾配への副作用を軽減する選択的ノイズ注入 (SNI) を提案しました。

  • 反論: 摂動生成戦略のさまざまな設定が RL ベースのトレーディングで導入されています [9]、  [11]注入されたノイズは、1) エージェントが堅牢な表現を提供する方法を学習するのに役立ち、2) トレーニング環境を多様化することができます。

  • データ拡張:データをより多様にするために、状態に変換が適用されます[18][19] 。

  • 転移学習:エージェントが新しいタスクに一般化するのを支援することに重点を置いて、ドメイン適応[20]に広く使用されています。Gamrian と Goldberg  [21]はさらに GAN を利用して、ターゲット ドメインからソース ドメインへの視覚的観測をマッピングしました。

  • メタ学習:エージェントは、他のドメインにすばやく適応するのに役立つメタ ポリシーを学習します[22]ら。 [23] は、エージェントが新しいタスクに迅速に適応できるようにする問題にも焦点を当てています。エージェントは、再帰型ネットワークを拡張して RL のメタ学習をサポートすることによってこれを行います。

この研究では、テストとトレーニング中に同等のポートフォリオパフォーマンスを生み出す一般的な取引戦略を学習することを目標とするエージェントのタスク内一般化能力に焦点を当てています。この目的は、[9]、[11] のものと似ています。ただし、金融における強化学習の研究と同様に、金融における一般化の改善に関する研究は、歴史的な価格ベースのトレーニング環境に基づいています。したがって、過去のデータを使用するという上記の問題は、文献では未解決のままです。

C. 人工市場シミュレーション

研究者は長い間、投資家の行動をモデル化しようと試みてきました。画期的な研究は、効率的市場仮説 (EMH) [24] の可能性に焦点を当てていますしかし、他の研究者は、例えば牧畜の下で、人々が不合理な決定を下すことを発見しました[25]そこで行動経済学は、この不合理性をモデル化するために提案されました。最近の研究は、行動予測に焦点を当てています。Lovricらによると。 [26]、投資決定は、投資家と環境の間の相互作用の結果としてモデル化できます。調査では、時間の好み、リスクに対する態度、性格など、投資プロセスに影響を与えるいくつかの相互依存的な変数も示唆されています。さらに、シャンタら によって提案されたフレームワークでは。[27]、投資家は自分の取引経験から学ぶか (個人学習)、または他人を模倣することで (社会学習) 学びます。

人工市場シミュレーションにより、研究者は過去のデータでは捉えられない状況を構築することができます。その結果、このようなシミュレーションは、空売り規制[28]、取引税[29]、注文照合システムの速度[30]など、金融におけるさまざまな問題を分析するために広く使用されています。エージェントベースのシミュレーションは、複数のエージェントを組み合わせて実際の市場で定型化された事実を再現するもので、人工市場シミュレーションで最も一般的な手法です。シミュレーション プロセスは、いくつかの部分で構成されます。まず、関連する被験者の知能レベル、効用関数、および学習能力が定義されます[31]第二に、資産価格の決定[32] . 第三に、人工市場構築の宣言に関与するトレーディング資産の種類と量[33] . 第 4 に、エージェントの知能レベルと高い相関関係にある学習プロセスを決定します[34][35]最後に、シミュレートされた市場が調整され、検証されます。具体的には、キャリブレーションは、シミュレートされた市場が実際の市場に最も近いように動作するようにするパラメーターの選択であり、検証は、シミュレートされた市場が実際の市場と同じように動作するかどうかを含みます。エージェントベースのモデルを使用してシミュレートされた市場を構築することに加えて、Li et al。 [36] は、連続取引システムでの市場設計と分析をサポートするために、忠実度の高い指値注文データを生成する Stock-GAN を提案しました。この研究では、生成モデルを利用して金融市場を構築します。現実的な価格設定メカニズムで金融市場を再構築するだけでなく、シミュレートされた市場を RL 取引エージェントと組み合わせます。市場シミュレーションを RL ベースのポートフォリオ最適化フレームワークと組み合わせることで、プロキシ最適化に過去の価格データを使用することの前述の欠点を克服します。

第三部。

予選

このセクションでは、仮説を述べ、この調査の限界について説明し、強化学習をポートフォリオ管理に適用する際の問題に対処します。

A. 仮説

エージェントの行動に対する市場の反応をシミュレートする生成モデルを提案します。したがって、次の仮定を行う必要があります。

  • シミュレートされた金融市場は、エージェントの行動に対するもっともらしい反応を生成する責任があるため、エージェントは市場の他の投資家の行動に影響を与える能力を持っていると想定されます。

  • 投資家の注文行動は、金融市場に対する外生変数の影響を完全に反映しています。したがって、もっともらしい市場の反応を合成する場合にのみ、市場の注文行動をモデル化します。

これらの仮定に加えて、この研究には別の制限があります。生成された指値注文の信憑性を検証する体系的な方法がまだ不足しているため、シミュレートされた金融市場でポートフォリオのパフォーマンスを評価すると、エージェントが非現実的な見積もりの​​リスクにさらされる可能性があります。したがって、過去の価格データを使用して一般化能力を評価します。

B. 問題の定義

ポートフォリオ管理は、資金をさまざまな資産に絶えず再配分する意思決定プロセスです。ポートフォリオ戦略策定のプロセスはMDPで表現できます。MDP はタプル <S,A,P,,,,p0,c> として表されます。ここで、S は状態空間、A は行動空間、P は状態遷移関数、R は報酬関数、p0 は確率分布です。初期状態、および C∈ [ 0 , 1 ) 報酬の割引係数。ポートフォリオ管理の場合、エージェントは最適なポリシー π(A | s ) を見つけることを目指します。ここで、アクション A ∈ A は状態 S ∈ S に関して最適です。この最適なポリシーでは、期待されるリターンが最大化されます。

π*=パラメータ最大E [∑t = 0∞γtR(st, At)],(1)
ソースコードを見る

ここで s0~p0, At~π(···_st) および _ _ _st+1~P(···_st,At) . RL ベースのポートフォリオ管理フレームワークには、主に環境とエージェントが含まれます。MDP から学習フレームワークへのマッピングは、次のように記述されます。

1) 環境

環境の設計には次の要素が含まれます: (1) エージェントの取引状態または環境によって提供される価格シーケンスの期間を含む状態 St ∈ S; (2) 状態遷移 P(···_St, At)、前の状態とアクションが与えられると、次の状態 St + 1 を提示; (3) エージェントのポートフォリオのパフォーマンスを定義し、エージェントの目的関数として機能する効用関数である報酬関数 R(St,At)最大化する。

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/130301857