大規模な言語モデルは時系列を処理できますか? (時系列のLLM)

時系列用 LLM:時系列に対する LLM の機能を有効にするテキスト プロトタイプ アラインメント埋め込み

今日は、北京大学とアリババが共同で立ち上げた、LLM を使用して時系列分類と予測タスクを実装した研究を紹介したいと思います。

  • 要約

時系列 LLM に関する現在の取り組みは、主に 2 つの戦略で構成されています。

1 つ目は、LLM for-TS です。時系列に適した基本的な大規模モデルを最初から設計して事前トレーニングし、その後、さまざまな下流タスクに応じてモデルを微調整します。このパスは最も基本的なソリューションであり、大量のデータに基づいており、事前トレーニングを通じて時系列関連の知識をモデルに組み込みます。

2 つ目は TS-for-LLM です。既存の言語モデルに基づいて時系列のさまざまなタスクを処理できるように、時系列を既存の言語モデルに適用できるように対応するメカニズムを設計します。この道は困難であり、元の言語モデルを超える機能が必要です。

この記事では主に TS-for-LLM の問題について説明します。主な理由は次の 3 つです。

  1. LLM-for-TS には大量のデータの蓄積が必要です。時系列データは、テキストや画像データに比べて専門的でプライバシーの問題もあり、大量の時系列データを取得するのがより困難ですが、TS-for-LLM では比較的小規模なデータセットを使用できます。

  2. LLM-for-TS は垂直ドメイン モデルに焦点を当てています。時系列データは分野によって大きく異なるため、医療や産業など分野ごとにさまざまなモデルを一から構築し、学習させる必要があります。TS-for-LLM はトレーニングをほとんど必要とせず、プラグイン モジュールを利用することでより多用途で便利になります。

  3. TS-for-LLM は、言語モデルのテキスト機能を保持しながら、簡単にアクセスできてユーザーフレンドリーな豊富な補足セマンティック情報を提供します。

この論文では、LLM により適した時系列埋め込みを取得するために、インスタンスごと、特徴ごと、テキスト プロトタイプに合わせた比較学習を通じて時系列エンコーダ テストを設計します。同時に、この記事では、既存の LLM を時系列埋め込みにより適したものにするための対応するプロンプトも設計し、最終的にはさまざまな時系列タスクを実現します。

  • 手法の紹介
655c2d985dce459452ba42bc7b0a2842.png

この記事で提案されている方法には、1) 時系列をトークン化 (単語分割処理) し、その後、対照学習を使用して時系列エンコーダーをトレーニングする、2) 迅速な設計、以下で詳しく紹介する 2 つの重要なステップが含まれます。

TS トークンの拡張とエンコーディング

D 個の変数と T 個のサンプルを含む多変量時系列の場合、K 個のサブシーケンスに分割でき (このプロセスはスライディング ウィンドウとみなすことができます)、s はシーケンス x のトークン リストと呼ぶこともできます。をアンカー インスタンスとして扱い、対応する正のサンプルは 2 つの部分から取得されます。1 つは重複するサンプルを持つサブシーケンスで、もう 1 つはデータ拡張を通じて取得されたインスタンスの合計です。これは、元のシーケンスにノイズとスケーリングを追加することによって取得できます。また、シーケンスをランダムに分割してシャッフルすることによって取得することもできます。負のサンプルは、 と重複するサンプルを持たないインスタンスです。

次に、マッピング関数を使用して各トークンを M 次元表現にマッピングし、最終的に x のトークン リストを取得します。

取得したトークンについては、まず目的関数を使用して、e が元のシーケンス情報を完全に表現できることを確認します。次に、インスタンスごと、機能ごと、テキスト プロトタイプに合わせた 3 つのタイプの対照学習についてさらに検討します。

インスタンスごとのコントラスト学習: 構築されたポジティブ インスタンスとネガティブ インスタンスについて、ターゲット アンカー インスタンスが対応するポジティブ トークン インスタンスと可能な限り類似し、ネガティブ トークン インスタンスとは可能な限り異なることを確認します。目的関数は次のとおりです。

c79bc39cac007b43f98339a5b181dc40.png

インスタンスごとのコントラスト学習の欠点は、重複するサンプルがないものの、位置とセマンティクスが近いインスタンスが負の例とみなされる可能性があることです。したがって、この記事では、さまざまな列に含まれる意味情報に焦点を当てて、特徴ごとのコントラスト学習をさらに設計します。目的関数は次のとおりです。

b049c4012df3f6c469ff41425370a5dc.png

、この目的関数では、マッピング 、 を通じて取得できます。Bはミニバッチのサイズです。上記の目的関数は、各特徴レベルについて、正のサンプルが可能な限り類似し、負のサンプルが可能な限り異なることを保証します。ただし、これにより、特徴表現がより小さな空間に縮小しやすくなります。目的関数はさまざまな特徴を最大化します。

テキスト プロトタイプに合わせたコントラスト学習: 最後に、LLM が構築された TS 埋め込みをよりよく理解できるようにするために、この記事では、テキスト表現空間に合わせてテキスト プロトタイプに合わせたコントラスト学習を設計しました。現在、事前トレーニングされた言語モデルにはすでに独自のテキスト トークンが埋め込まれています。たとえば、GPT-2 は、語彙内のテキスト トークンを 768、1024、および 1280 の次元の表現空間に埋め込みます。記事では、時系列マーカー e をテキスト マーカー tp に強制的に配置します。たとえば、TS 埋め込みには対応するテキストの説明が欠けている場合がありますが、値、形状、周波数などの例の説明に近い場合があります。この形式の調整を通じて、TS トークンは、小規模、大規模、上昇、下降、安定、不安定な時系列などの豊富な情報を表現できる機能を獲得する可能性があります。ただし、実際の状況では、監視ラベルや実際のデータをベンチマークとして提供できないため、上記のテキスト シーケンスの位置合わせの結果は現実と完全に一致しない可能性があります。たとえば、上昇傾向のサブシーケンスに対応する埋め込みは、下降傾向のシーケンスの埋め込みと非常によく似ている可能性があります。TS 埋め込みとテキスト トークンをより適切に一致させるために、この記事では次のコントラスト損失関数を設計します。

6c48b5a6657916b70017c1fca6990023.pngまず、ベクトルの類似性(TS 埋め込みとテキスト埋め込みの間のコサイン類似度を最大化する)、つまりテキスト位置合わせ部分を制約することによって、次にテキスト プロトタイプを座標軸として使用して、TS 埋め込みを対応する位置にマッピングします。これにより、同様のインスタンスがテキスト軸で同様に表現されるようになります。テキストプロトタイプ tp のモデリング方法は、前のセクションで紹介した特徴レベルの対照学習によって実現されます。

7221577409d21b871c32d093dd555bf4.png

上記のプロセスを通じて、記事は時系列 (TS) を記述するために言語モデルが理解できる埋め込み表現を構築しますが、言語モデルには次の時系列タスクを実行する方法を指示する必要があります。現在のところ、プロンプト エンジニアリングと COT 思考チェーンは直観的で理解しやすく、より良い結果が得られるようにモデルを導くことができますが、これらの方法には一貫した文脈セマンティクスが必要です。TS 埋め込みにはそのような特別な効果はなく、パターンに似ています。順序。したがって、この記事では、言語モデルがさまざまなシーケンスのパターンを認識できるように、時系列データのソフト プロンプトをさらにトレーニングし、それによって時系列タスクを実現します。これらのソフト プロンプトは、一様分布からランダムに初期化できるタスク固有の埋め込みです。または、下流タスク ラベルのテキスト埋め込みから初期値を取得したり、語彙内の最も一般的な単語から初期値を取得したりすることもできます。次のようにプロンプ​​トの目的関数を取得します。

ef4f5ebb48d0aa73d1fb414fb11fa9cf.png

この記事では、教師あり微調整手法により下流の TS タスクの精度を効果的に向上させることができると述べられていますが、トレーニングのコストが高いことと、微調整された言語モデルが TS 埋め込みの意味情報を効果的に理解できることを保証できないことを考慮して、この記事では、ソフト プロンプトをトレーニングする方法を学ぶために、教師あり微調整を放棄し、採用しました。この記事では、トレーニングされたソフト プロンプトが教師あり微調整と同様の効果を達成できることも証明しています。この記事で提案する手法の具体的な学習プロセスは次のとおりです。

02ce9db030033b494c9aa45db3122623.png

実験部分では、TEST を使用することで、さまざまな言語モデルが時系列分類および予測タスクで一般的なベースライン モデルと同等のパフォーマンスを達成できます。この記事の実験では、より大きなモデルを使用すると、より正確な結果が得られることがわかりました。著者は、この現象の本質的な理由は、言語モデルの事前トレーニング データセットのサイズに関連していると考えています。事前トレーニングで使用されるデータ セットが多ければ多いほど、トレーニングが進むほど、プロトタイプの選択とプロンプトがより正確になり、デザインはそれほど重要ではなくなりました。その理由を探るため、著者は今後さらに実験を行い、コーパスと時系列の深い相関関係を探っていきたいと考えています。

ac324435a28a93c38658f7d421ae7272.png f0fa57cb1035d31accb09695d252d4bc.png

推奨読書:

私の2022年のインターネットスクール募集の共有

私の2021年のまとめ

アルゴリズムの立場と開発の立場の違いについての簡単な説明

インターネットスクール募集 研究開発給与概要

2022年のネット就活の現状、金9銀10がもうすぐ銅9鉄10になる!

公開アカウント: AI カタツムリ車

謙虚さを保ち、規律を保ち、改善し続ける

23f97a5803b175d90211f2e6ba7b18e3.jpeg

[Snail] に送ると「Hand-in-Hand AI Project」(AI Snail 著)を入手できます

[1222] を送信して、適切な leetcode テストノートを入手してください

[AI に関する 4 冊の古典的な書籍] を送信すると、4 冊の古典的な AI 電子書籍が入手できます

おすすめ

転載: blog.csdn.net/qq_33431368/article/details/133053258