LLM Daily-6.27-ChatPaperDaily-(1)

記事ディレクトリ

P1 06-26 大規模マルチモーダル モデル: CVPR 2023 チュートリアル ノート

    1. タイトル: 大規模マルチモーダル モデル: CVPR 2023 チュートリアルに関するメモ
  • 論文の紹介: 大規模マルチモーダル モデル: CVPR 2023 チュートリアル ノート

    1. 著者: 李春源
    1. 所属:
      Microsoft Research、レドモンド (Microsoft Research、レドモンド)
    1. キーワード:
      大規模マルチモーダル モデル、視覚と言語のモデリング、命令チューニング、GPT-4、マルチモーダル GPT-4
    1. 論文: なし Github: なし
    1. 論文の要約:
  • (1): この論文の研究背景は、視覚および言語モデリングのための最近の大規模 GPT モデルであり、マルチモーダル GPT-4 を構築および超えるために、大規模マルチモーダルの誘導調整の研究につながります。 -モーダル モデル (LMM)。

  • (2): 過去の手法は主に画像からテキストへの生成モデルに基づいていますが、いくつかの問題があるため、大規模なマルチモーダル モデルを改善する必要があります。この論文では、これらの問題に対処するために、マルチモーダル空間に拡張されたガイド付き調整の方法を提案します。

  • (3): この論文では、オープンソース リソースを使用してマルチモーダル GPT-4 の最小限のプロトタイプを構築する方法を説明し、最近登場した関連トピックをレビューします。この革新性は、ガイド付き調整手法をマルチモーダル モデルに適用することにあり、オープン ソース リソースを使用してモデルを構築するためのガイダンスを提供します。

  • (4): 私たちのアプローチは、視覚と言語の生成タスクで優れたパフォーマンスを達成し、その目標と革新をサポートします。マルチモーダル GPT-4 の最小限のプロトタイプを構築することにより、LMM の可能性と応用の見通しが実証されます。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この文書では、主にモデル アーキテクチャとトレーニング目的の説明を含む大規模マルチモーダル モデルへのアプローチを紹介し、いくつかのケース スタディを使用してさまざまなタイプの大規模マルチモーダル モデルの適用を示します。

b. 方法の詳細な手順:
(1). 大規模マルチモーダル モデルの基本アーキテクチャ: モデルは通常、画像エンコーダーと言語モデルで構成され、画像エンコーダーは視覚的特徴と言語モデルを抽出するために使用されます。テキストシーケンスをデコードするために使用されます。画像および言語モダリティは、トレーニング可能な接続モジュールを通じて接続できます。画像エンコーダーと言語モデルは、最初からトレーニングすることも、事前トレーニングされたモデルから初期化することもできます。

(2). トレーニングの目的: モデルは通常、自己回帰損失関数を使用して出力テキスト トークンをトレーニングします。アテンション メカニズムでは、画像トークンは互いに注意を払うことができ、テキスト トークンはすべての画像トークンと以前のテキスト トークンに依存します。

(3). 大規模なマルチモーダル モデルの適用ケース:
- ケース 1: 画像とテキストのペアの例を使用してトレーニングされた大規模なマルチモーダル モデル。モデルは多数の画像とテキストのペアを使用してトレーニングされます。各トレーニング サンプルは画像とテキストのペアです。GIT と BLIP2 の 2 つのケーススタディを通じて、異なるモデルのパフォーマンスの比較が示されています。
- ケース 2: インターリーブされた画像とテキストのシーケンス インスタンスを使用してトレーニングされた大規模なマルチモーダル モデル。このモデルは、事前トレーニングされた画像モデルと言語モデルの間に新しいアーキテクチャ コンポーネントを追加することで接続します。Flamingo のケーススタディを通じて、ネットワークからの大規模なマルチモーダル データを使用したトレーニング後の単純な数ショット学習を通じて、モデルを視覚タスクに直接適応できることを示します。

(4). マルチモーダル文脈学習: Flamingo モデルは、マルチモーダル文脈学習の特性を示します。Flamingo は、画像とテキストのペアが与えられると、新たな未確認の問題に対してゼロショット タスク転送を実行できます。これは、Flamingo が追加のトレーニングなしで、少数のタスク固有の例だけで多くの困難な問題を解決できることを意味します。

(5). GPT-4 モデル: GPT-4 は新世代の大規模マルチモーダル モデルで、言語能力を向上させるだけでなく、追加入力として視覚信号も可能にします。GPT-3 から GPT-4 では、命令追従とマルチモーダル入力という 2 つの新しい機能が追加されました。この論文は、マルチモーダル空間における指示追従と調整の研究に焦点を当てています。

(6). 前提条件: この論文では、マルチモーダル モデルにおける命令フォローイングとアライメント研究の背景と歴史をより深く理解するために、命令アライメントと大規模言語モデルに関する研究をレビューします。

(7). その他の関連モデル: この文書では、GPT-2、GPT-3、ChatGPT、InstructGPT などの OpenAI のいくつかの大規模モデルもレビューし、それらの特性とパフォーマンスを紹介します。

(8). 要約: この論文は、大規模なマルチモーダル モデルの方法を提案し、ケーススタディを通じて、画像からテキストへの生成タスクとマルチモーダル コンテキスト学習へのさまざまなタイプのモデルの適用を実証します。同時に、この論文では GPT-4 モデルの新しい特性と、マルチモーダル空間における命令追従および調整研究の重要性についても紹介します。

実験セットアップ:

  • 実験設定:
    この論文の実験設定には主に次の側面が含まれます。

(1). 背景の紹介: まず、命令調整された大規模マルチモーダル モデル (LMM) の研究への関心を刺激するために、視覚および言語モデリングのための最近の大規模な GPT のようなモデルが紹介されます。

(2). 命令調整の基礎: 大規模な言語モデルにおける命令調整の基礎が説明され、マルチモーダル空間に拡張されます。

(3). マルチモーダル GPT-4 の最小プロトタイプの構築: オープン ソース リソースを使用してマルチモーダル GPT-4 のようなモデルの最小プロトタイプを構築する方法を紹介し、最近の関連トピックをレビューします。

(4). 画像チャットの実験: LLaVA によって生成された画像チャットの例を使用して、マルチモーダル モデルの適用を実証します。

上記の実験セットアップを要約し、本稿では主に大規模マルチモーダル モデルの背景と基礎知識を紹介し、イメージ チャット実験によって検証されるマルチモーダル GPT-4 の最小限のプロトタイプを構築する方法を示します。

実験結果:

実験結果と分析:
このペーパーでは、大規模なマルチモーダル モデルに関する CVPR 2023 チュートリアルの内容の概要を示します。チュートリアルは 3 つの部分に分かれています。まず、命令調整された大規模マルチモーダル モデル (LMM) への研究の関心を刺激するために、視覚および言語モデリングのための最近の大規模 GPT のようなモデルの背景を紹介します。前提条件として、大規模な言語モデルにおける命令チューニングの基礎を説明し、それをマルチモーダル空間にさらに拡張します。最後に、オープンソース リソースを使用してマルチモーダル GPT-4 に似た最小限のプロトタイプを構築する方法を示し、最近登場したテーマを確認します。

実験結果と分析:

  • このペーパーでは、大規模なマルチモーダル モデルに関する CVPR 2023 チュートリアルの内容の概要を示します。
  • このチュートリアルは 3 つの部分に分かれており、ビジョンおよび言語モデリング用の最近の大規模モデルの背景、大規模言語モデルでの命令チューニングの基本、およびマルチモーダル GPT-4 の最小限のプロトタイプを構築する方法を提供します。
  • オープンソース リソースを使用することで、マルチモーダル GPT-4 と同様のモデルを構築できます。
  • この記事では、マルチモーダル モデルに関連する最近のトピックについてもレビューします。
  • 入力内容には実験結果や解析の具体的な内容は記載されていません。

P:2 06-26 強化学習における事前学習済みモデルの制御方法の学習

  • タイトル: RL で事前トレーニングされたモデルを調整する方法を学習する

  • 論文概要: この論文では、強化学習において、新しいタスクに効率的に適応できるように事前トレーニングされたモデルを調整する方法を調査します。学習可能なコンディショニングプールを導入することで、事前学習済みモデルの情報の流れを調整する学習-to-調整(L2M)と呼ばれる手法が提案されています。このメソッドは、Continual-World ベンチマークで最先端のパフォーマンスを達成し、事前トレーニング タスクのパフォーマンスを維持します。

  • 著者: トーマス シュミート、マルクス ホフマーヒャー、ファビアン パイッシャー、ラズヴァン パスカヌ、ゼップ ホッホライター

  • 所属:
    Thomas Schmied: ELLIS Unit Linz および LIT AI Lab、機械学習研究所、ヨハネス ケプラー大学、リンツ、オーストリア

  • キーワード: 強化学習、事前トレーニング、微調整、壊滅的忘却、学習調整 (L2M)

  • 論文:論文へのリンク
    Github: なし

  • 論文の要約:

  • (1): この論文の研究背景は、新しいタスクに適応する際の強化学習におけるモデルの事前学習の問題、つまり壊滅的な忘却現象です。

  • (2): 過去の手法にはパラメータ効率の高い微調整やヒントベースの調整が含まれていますが、強化学習への応用は不明です。この論文では、プールを調整する方法を学習することで壊滅的な忘却を回避し、新しいタスクで優れたパフォーマンスを達成する新しいアプローチである L2M を提案します。

  • (3): この論文の研究アプローチは、学習可能な調整プールを導入することで事前トレーニングされたモデルの情報フローを調整することで、新しいタスクに適応することです。このアプローチは、Continual-World ベンチマークで最先端のパフォーマンスを達成し、トレーニング前のタスクでのパフォーマンスを維持します。

  • (4): 私たちの手法は、事前トレーニング タスクのパフォーマンスを維持しながら、Continual-World ベンチマークで最先端のパフォーマンスを達成します。これは、この方法が新しいタスクを効率的に学習し、致命的な忘れを回避できることを示しています。この論文の革新的な点は、事前トレーニング モデルの情報フローを調整するための学習可能な調整プールを導入することです。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この論文は、学習スキルの低下を回避し、新しい学習環境でのパフォーマンスを向上させるために、学習可能な変調プールを介して事前トレーニングされたモデルの情報フローを調整する、Learning-to-Modulate (L2M) と呼ばれる方法を提案します。最先端のパフォーマンスを実現します。

b. 方法の詳細な手順:
(1). 効率的なパラメータ微調整とヒントベースの調整方法の利点を組み合わせた Learning-to-Modulate (L2M) 方法が提案されます。
(2). パラメータ効率の良い微調整手法 (LoRA など) を事前トレーニング モデルの変調器として使用し、変調器の重みを学習することで事前トレーニング モデルの動作を変更します。
(3). 与えられた入力シーケンスに最もよく一致する変調器の重みを取得するための学習可能なキーワードのセットを含む変調プールが維持されます。
(4). 集計関数を使用して軌跡内の状態を集計してクエリ ベクトルを生成し、コサイン類似度を計算してクエリ ベクトルに最も類似するキーワードを選択します。
(5). アテンション メカニズムおよびフィードフォワード ブロックにおけるクエリと値の調整を含め、選択したキーワードを使用して事前トレーニングされたモデルを調整します。
(6). モジュレーターの重みは、事前トレーニングされたモデルをフリーズしたままにしながら、勾配降下法によって学習されます。
(7). クエリ ベクトルとキーワード間のコサイン類似度を最大化することによってキーワードを更新します。
(8). Decision Transformer アーキテクチャは、複数のドメインからの入力を処理できるように拡張されています。
(9). Meta-World 環境と DMControl 環境の次元を 204 次元の状態空間に組み合わせて、統一された状態空間を構築しました。
(10). アクションをセグメント化し、min-max トークン化メソッドを使用してアクションを 64 個のトークンに離散化します。
(11). クロスエントロピー損失関数を使用して、条件付き逆強化学習を返すことによってモデルをトレーニングします。

以上が、本論文で提案する Learning-to-Modulate (L2M) 法の詳細な手順です。この方法では、事前トレーニングされたモデルの情報フローを調整することで、学習したスキルの低下を回避し、新しいタスクで最先端のパフォーマンスを実現します。

実験セットアップ:

  • 実験設定:
    このペーパーの実験設定は次のとおりです:
    (1). このペーパーでは、合計 66 の異なるタスク、つまり Meta-World と DMControl を含む 2 つの異なるベンチマーク スイートを検討します。
    (2). メタワールドには、物体の掴み、操作、窓の開閉、ボタンの押し、ドアの施錠/解錠、バスケットボールの射撃など、50 種類の多様なロボット操作タスクが含まれています。DMControl には、さまざまなロボット形式が関係する 16 のミッションが含まれています。
    (3). 著者は、Soft Actor Critic (SAC) アルゴリズムを使用してタスクごとに特定のエージェントをトレーニングし、対応するデータ セットを収集しました。
    (4). Meta-World データ セットには 100M の状態遷移が含まれており、DMControl データ セットには 16M の状態遷移が含まれています。
    (5). 著者は、フル微調整 (FT)、アダプター、LoRA、プロンプト チューニング、プレフィックス チューニング、P チューニング v2 などを含むさまざまな微調整方法のパフォーマンスを比較します。
    (6). 忘却現象を評価するために、著者はタスクごとに事前トレーニング モデルを微調整し、各タスクで 100K ステップをトレーニングします。
    (7). 著者はまた、L2M 法のパフォーマンスを Elastic Weight Consolidation (EWC) および L2 法と比較しました。
    (8). 実験結果は、L2M 手法が Continual-World v2 ベンチマークで最高のパフォーマンスを達成し、事前トレーニング タスクで良好なパフォーマンスを維持し、新しいタスクに効果的に適応することを示しています。

実験結果:

実験結果と分析:
この研究では、まず、Meta-World と DMControl という 2 つのベンチマーク スイートのデータセットで共同で事前トレーニングを行い、新しいタスクに対する自然言語処理で一般的なさまざまな微調整手法のパフォーマンスと、それらがタスクの保存に及ぼす影響を評価しました。トレーニング前のタスクのパフォーマンス。実験結果は、ほとんどの微調整方法のパフォーマンスが事前トレーニング タスクで大幅に低下することを示しています。したがって、この研究では、学習可能な変調プールを介して凍結された事前トレーニング済みモデルの情報フローを調整し、学習スキルの低下を回避する新しい方法である Learning-to-Modulate (L2M) を提案しています。このメソッドは、Continual-World ベンチマークで最先端のパフォーマンスを達成し、事前トレーニング タスクのパフォーマンスを維持します。さらに、この研究では、将来の研究を促進するために、50 の Meta-World タスクと 16 の DMControl タスクを含むデータセットをリリースしました。

具体的な実験結果は以下の通りです。

  1. CW10 および DMC6 では、FT 方式はモデルの容量全体を利用できるため、最高のパフォーマンスを実現します。アダプター法は平均スコアで 2 番目にランクされ、LoRA、(IA)3、FT-last+head がそれに続きます。PBT メソッドと PEFT メソッドの間には、特に MT40 で大きなパフォーマンスのギャップがあります。DMC6 では、完全な微調整方法と PEFT 方法の間のパフォーマンスの差はさらに大きくなります。これは、新しいタスクに適応する場合には、より多くのモデル容量が必要であることを示唆しています。
  2. CW10 と DMC6 では、L2M メソッドは他のメソッドよりも優れており、平均成功率はそれぞれ 65% と 43% です。L2M メソッドにタスク オラクルを追加すると、成功率が 76% と 75% に向上し、LoRA の単一タスクのパフォーマンスに近くなります。比較すると、さまざまなヒンティング手法を組み合わせた L2P のパフォーマンスははるかに劣ります。従来の継続的強化学習手法 EWC は、忘却の軽減にはあまり効果がありません。
  3. 事前トレーニング タスクのパフォーマンスは微調整後に評価されました。その結果、FT、L2、および EWC のパフォーマンスが大幅に低下したのに対し、L2M および L2P メソッドは微調整の前後で同様のパフォーマンス レベルを維持したことがわかりました。したがって、L2M は、新しいタスクに適応しながら、事前トレーニングされたタスクのパフォーマンスを効果的に維持します。

要約すると、この研究は、実験結果を通じて、連続強化学習における Learning-to-Modulate (L2M) 法の有効性を検証し、新しいタスクでは最先端のパフォーマンスを達成し、事前トレーニングされたタスクではパフォーマンスを維持します。これは、継続学習における忘却の問題の解決に重要な意味を持ちます。

P:3 06-26 パラメータを算術演算で組み合わせる高効率モジュール

  • タイトル: 算術演算を使用したパラメータ効率の高いモジュールの構成

  • 要約: この論文では、線形算術演算を通じて重み空間でパラメータ効率の高いモジュールを結合し、異なるモジュールの機能を統合する方法を紹介します。加算演算子と否定演算子を定義し、これら 2 つの基本演算子をさらに組み合わせることで、モジュール引数に対して柔軟な算術演算を実行できます。さまざまな算術演算を適用して、分布一般化、マルチタスク学習、忘却、ドメイン転送などのタスク用のパラメーター効率の高いモジュールを組み合わせます。実験結果は、私たちの方法がさまざまな設定の下で新しい効果的なパラメータ効率の高いモジュールを生成し、既存の方法を大幅に上回ることを示しています。

  • 著者: Jinghan Zhang、Shiqi Chen、Junteng Liu、Junxian He

  • 所属:上海交通大学

  • キーワード: パラメータ効率の高い微調整、事前学習済み言語モデル、モジュール構成、算術演算

  • 論文:リンクGithub: なし

  • 論文の要約:

  • (1): この論文では、算術演算を通じてトレーニング済みのパラメーター効率の高いモジュールを組み合わせて、モジュール機能の非常に柔軟な操作を実現する方法を調査します。

  • (2): 以前の方法は主に、フュージョン モジュールの出力またはハイブリッド エキスパート モードを学習することによってパラメーター効率の高いモジュールを組み合わせるため、追加のトレーニングが必要でした。私たちのアプローチは、加算演算子と否定演算子を定義し、線形算術演算を実行することにより、追加のトレーニングなしでモジュール構成を実現します。このアプローチは、マルチタスク アプリケーションを超えて幅広い設定で研究され、最新の大規模言語モデルに拡張されています。

  • (3): 本稿では、線形算術演算に基づくパラメータ効率の高いモジュール結合手法を提案し、加算演算子と否定演算子を定義し、それらの組み合わせをモジュールパラメータに適用することで、モジュール機能の柔軟な組み合わせを実現します。この方法は追加のトレーニングを必要とせず、柔軟性と操作性が高くなります。

  • (4): この論文は、提案手法を分布汎化、マルチタスク学習、忘却、ドメイン転送などのタスクに適用し、さまざまな設定で大幅なパフォーマンス向上を達成します。これらの実験結果は、算術演算を通じてパラメータ効率の高いモジュールを組み合わせることで、革新と貢献によって目標とするパフォーマンスの向上をサポートする新しい効率的なモジュールを生み出すことができることを示しています。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、線形算術演算を通じて重み空間でパラメータ効率の高いモジュールを結合し、異なるモジュールの機能を統合する方法を提案します。

b. 方法の詳細な手順:
(1). まず、モジュールの加算演算と否定演算を基本演算子として定義し、これら 2 つの基本演算子をさらに組み合わせて柔軟な算術演算を実行します。
(2). パラメータ効率モジュール (PEM) の加算演算子が提案され、対応する位置でパラメータを要素ごとに加算することによって新しいモジュールが得られ、入力モジュールの集合的な特性が捕捉されます。
(3). PEM の否定演算子は、特定のスキルの忘れたり削除を実現するために導入されました。定義済みの加算演算子を使用すると、否定演算子で減算演算を自然に実装できます。
(4). さまざまなシナリオで、加算演算子と否定演算子を使用して、分布一般化、マルチタスク学習、忘却、ドメイン転送、解毒などのモジュールを結合します。
(5). この手法を最新の LLaMA ベースの命令調整大規模言語モデル Alpaca-LoRA に拡張し、解毒操作を実現します。
(6). 実験では、この方法で組み合わせたパラメータ効率の高い新しいモジュールが、さまざまな設定において既存の方法よりも大幅に優れていることが証明されています。

実験セットアップ:

  • 実験設定:
    このペーパーの実験設定には、主に、異​​なる算術演算を含む 5 つの異なるシナリオが含まれています。各シナリオでは、算術演算に必要な条件を確保するために、事前トレーニングされたモデルのチェックポイントと PEM (パラメーター効率の高いモジュール) のアーキテクチャを修正します。特に明記されていない限り、各シナリオで LoRA と (IA)3 を使用して実験を行います。また、参照点として機能するように、フル ファイン チューン (FFT) セットアップで算術演算も実行します。この文書の目的はパラメータ効率の高いモジュールを組み合わせることにあるため、完全な微調整の結果は私たちの方法と直接比較できないことを強調しておく必要があります。線形接続を向上させるために、結合された PEM の初期化を同じに保ちますが、セクション 4.7 で異なる初期化の影響を分析します。LoRA の A 行列は異なる初期化を持つ場合がありますが、(IA)3 の l ベクトルは設計によりすべて 1 に初期化されます。λ は、この方法で調整可能な唯一のハイパーパラメータです。以下は、各シナリオの簡単なセットアップです。完全な実験セットアップの詳細については、付録 A を参照してください。

(1) 分布汎化シナリオ設定:
この設定では、同じタスクで訓練された異なる分布の PEM を組み合わせて、モデルの汎化能力を向上させることを目的としています。この目的を達成するために、Jin et al. (2023) に従って合成設定を構築します: データセットから、それぞれ不均衡なラベルと異なる分布を持つ 2 つのトレーニング サブセットを選択します。次に、これら 2 つのサブセットで 2 つの独立した PEM をそれぞれ学習させ、それらを θ merge = λθ (1) + (1 − λ)θ (2) によってマージします。次に、元の検証データを使用して個別の PEM と組み合わせた PEM を評価し、組み合わせた PEM が汎化能力の向上を示すかどうかを判断します。GLUE タスク セットの MNLI、RTE、CoLA、SST2、MRPC、QNLI、QQP、STS-B データセットを使用して実験を行います。ベースモデルにはRoBERTa-baseを採用。Matthews 相関係数 (MCC) を使用して評価される CoLA データセットを除き、他のデータセットは精度を使用して評価されますが、STS-B データセットは Spearman 順位相関係数を使用して評価されます。

(2) マルチタスク シナリオ設定:
この設定では、さまざまなタスクでトレーニングされた PEM を組み合わせて、マルチタスクでのモデルのパフォーマンスを向上させることを目的としています。GLUE タスク セット内のすべてのデータセットを使用して実験を実施し、対応する評価指標で評価します。

(3) Unlearning シナリオの設定:
PEM を組み合わせることで Unlearning の効果を実現することを目的とした設定です。具体的には、最初に 1 つのタスクで PEM をトレーニングし、次に別のタスクで PEM をトレーニングし、それらを θ merge = λθ (1) + (1 − λ)θ (2) によってマージします。GLUE タスク セット内の MNLI および QQP データセットを使用して実験を実施し、対応する評価指標で評価します。

(4) ドメイン移管シナリオの設定:
この設定では、PEM を組み合わせてドメイン移管効果を実現することを目指します。具体的には、最初に 1 つのドメインで PEM をトレーニングし、次に他のドメインで PEM をトレーニングし、それらを θ merge = λθ (1) + (1 − λ)θ (2) によってマージします。GLUE タスク セット内の MNLI および QQP データセットを使用して実験を実施し、対応する評価指標で評価します。

(5) Alpaca-LoRA 解毒シナリオ設定:
この設定では、手法を最先端の LLaMA ベースの命令チューニング大規模言語モデル Alpaca-LoRA に拡張します。GLUE タスク セット内の MNLI および QQP データセットを使用して実験を実施し、対応する評価指標で評価します。

実験結果:

実験結果と分析:
この論文では、線形算術演算を通じて重み空間でパラメータ効率の高いモジュールを結合し、さまざまなモジュールの機能を統合します。著者らは、分散一般化、マルチタスク、忘却、ドメイン転送など、5 つの異なるシナリオで実験を実施しています。実験結果は、私たちの方法で組み合わせたパラメータ効率の高いモジュールが、すべての設定において既存のモジュールよりも大幅に優れていることを示しています。具体的な実験結果は以下の通りです。

  1. 分布一般化: この設定では、作成者は、同じタスクで異なる分布でトレーニングされたパラメーター効率の高いモジュールを組み込むことで、モデルの一般化能力を向上させます。実験結果は、すべての指標において、結合されたモジュールが 2 つの個別のモジュールよりも大幅に優れていることを示しています。

  2. マルチタスク: この設定では、作成者はパラメータ効率の良いモジュールを複数のタスクに適用します。実験結果は、異なるタスクのモジュールを組み合わせることで、各タスクのモデルのパフォーマンスが大幅に向上できることを示しています。

  3. 忘却: この設定では、著者らはパラメータの効率的なモジュールを組み合わせることによって、特定のタスクを忘れる機能を実現する方法を研究します。実験結果は、モジュールを組み合わせて重みを調整することで、タスク固有の忘却を効果的に達成できることを示しています。

  4. ドメイン転送: この設定では、著者は、パラメータ効率の高いモジュールを組み合わせてドメイン転送機能を実現する方法を調査します。実験結果は、モジュールを組み合わせて重みを調整することで、さまざまなドメインでのモデルのパフォーマンスを大幅に向上できることを示しています。

  5. Alpaca-LoRA モデル: 著者らは、LLaMA に基づいて最先端の命令調整された大規模言語モデルである Alpaca-LoRA にメソッドを拡張しました。実験結果は、私たちの方法で組み合わせたモジュールが、さまざまな指標において既存のモジュールよりも大幅に優れていることを示しています。

要約すると、この論文で提案する方法は、線形算術演算を通じて重み空間でパラメータ効率の高いモジュールを結合し、モジュールの柔軟な組み合わせを可能にします。実験結果は、私たちの方法で組み合わせたモジュールがさまざまなシナリオで大幅なパフォーマンスの向上を達成することを示し、この方法の有効性と実現可能性を証明しています。

P:4 06-26 KOSMOS-2: マルチモーダル大規模言語モデルを世界にリンクする

  • タイトル: KOSMOS-2: マルチモーダル大規模言語モデルを世界に発信する

  • 論文概要: KOSMOS-2 は、オブジェクトの説明を認識し、テキストを視覚的な世界にリンクするための新しい機能を備えたマルチモーダルな大規模言語モデルです。

  • 著者: Zhiliang Peng、Wenhui Wang、Li Dong、Yaru Hao、Shaohan Huang、Shuming Ma、Furu Wei

  • 所属: マイクロソフトリサーチ

  • キーワード: マルチモーダル大規模言語モデル、グラウンディング、参照、視覚言語タスク

  • 論文:リンクGithub: なし

  • 論文の要約:

  • (1): この論文の研究背景は、マルチモーダル大規模言語モデルの開発と、言語、視覚、および視覚言語タスクにおけるそれらの応用です。

  • (2):従来の方法では、画像説明文に詳細な文字説明を入力する必要があることや、参照先が曖昧であることなどの問題点があった。この文書のアプローチは十分に動機付けられており、これらの問題に対処することができます。

  • (3): この論文は、KOSMOS-1 に基づいたマルチモーダル大規模言語モデル KOSMOS-2 を提案します。これは、大規模な画像テキスト データセットをトレーニングし、知覚と関連付けの機能を下流のアプリケーションに統合します。

  • (4): KOSMOS-2 は、マルチモーダル知覚、共参照理解、知覚言語タスク、および言語理解と生成を含む複数のタスクに関して評価されます。実験結果は、KOSMOS-2がこれらのタスクで競争力のあるパフォーマンスを達成し、画像の説明と画像の質問応答だけでなく、知覚および参照タスクにおいても重要なパフォーマンスと革新的な貢献をしていることを示しています。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、テキストを視覚世界と関連付けることによって、オブジェクトの説明とテキストの根拠を認識する能力を実現する、マルチモーダル大規模言語モデルである KOSMOS-2 を紹介します。

b. 方法の詳細な手順:
(1). KOSMOS-2 は、グラウンディング機能と参照機能に基づいたマルチモーダル大規模言語モデルであり、KOSMOS-1 と比較して、これらの機能が統合されています。
(2). モデルは、境界ボックスを使用してユーザーが選択した画像領域を入力として受け入れ、視覚的な回答 (つまり、境界ボックス) を提供し、テキスト出力を視覚的な世界に関連付けることができます。
(3). KOSMOS-2 は、KOSMOS-1 と同じモデル アーキテクチャとトレーニング目標を使用します。グラウンディングベースの画像とテキストのペアをトレーニング データに追加することで、モデルにグラウンディングと参照の機能が与えられます。
(4). テキストセグメント (名詞句や参照表現など) と、グラウンディングベースの画像とテキストのペア内のそれに対応する境界ボックスの場合、境界ボックスの連続座標を一連の位置マーカーに離散化し、コーディングします。統一された方法でテキストマークアップを使用します。
(5). 次に、位置マークとそれに対応するテキスト断片を「ハイパーリンク」データ形式でリンクします。このモデルは、画像領域とそれに対応する位置マーカー間のマッピングを構築し、画像領域を関連するテキスト フラグメントと接続するようにトレーニングされます。
(6). グラウンディングベースの画像とテキストのペアのテキスト セグメントとそれに関連付けられた境界ボックスの場合、まず境界ボックスの連続座標を一連の離散位置マーカーに変換します。
(7). 幅 W と高さ H の画像の場合、幅と高さを均等に P 個のセグメントに分割します。P×P個のブロックが得られ、各ブロックは(W/P)×(H/P)個の画素を含む。各ブロックについて、位置マーカーを使用してそのブロック内の座標を表します。各パッチの中心ピクセルの座標を使用して、画像上の境界ボックスを決定します。合計 P×P の位置トークンが導入され、テキストとの統合モデリングのために語彙に追加されます。
(8). 境界ボックスは、左上隅の点 (x1、y1) と右下隅の点 (x2、y2) によって表すことができます。左上と右下の位置マーカーを離散化し、左上位置マーカー、右下位置マーカー、および特別な境界ボックスを連結して、単一の境界ボックス「」を表します。
(9). テキスト フラグメントが複数の境界ボックスに関連付けられている場合、特別なマーカーを使用してこれらの境界ボックスの位置マーカーを接続します:「…」。
(10). 次に、テキストの断片とそれに関連付けられた目印を、Markdown の「ハイパーリンク」に似た形式で配置します。境界ボックスが 1 つだけあるテキスト フラグメントの場合、結果のシーケンスは次のようになります。

テキストスニペット

"、で

そして

は、テキスト断片の始まりと終わりを示す特別なマーカーです。このデータ形式は、画像領域が境界ボックス内のテキスト フラグメントに関連付けられていることをモデルに伝えます。
(11). 画像とテキストのペアの例 (図 1 に示す) では、入力は次のように表現されます

それ

隣の席

キャンプファイヤー

と は シーケンスの開始と終了を示し、エンコードされた画像埋め込みの開始と終了を示します。 は、テキスト出力を画像に関連付けるようにモデルに指示する特別なマーカーです。ルックアップ テーブルを介して、入力テキスト トークンと位置トークンを埋め込みにマッピングします。KOSMOS-1と同様に、入力画像の埋め込みを取得するためにビジュアルエンコーダとリサンプリングモジュールが使用されます。
(12). 言語のみのデータ、クロスモーダル ペア データ (つまり、画像とテキストのペア)、およびインターリーブされたマルチモーダル データには、KOSMOS-1 と同じ入力表現を使用します。KOSMOS-1 に基づいた KOSMOS-2 は、グラウンディング機能と参照機能を統合することにより、マルチモーダル大規模言語モデルを強化します。KOSMOS-2 はまた、Transformer ベースの因果言語モデルをバックボーンとして使用し、次のトークン予測タスクでトレーニングされます。
(13). KOSMOS-1 で使用されるマルチモーダル コーパス (テキスト コーパス、画像とキャプションのペア、およびインターリーブされた画像とテキスト データを含む) に加えて、グラウンディング ベースの画像とテキストのペアもトレーニングに追加します。トレーニング損失では、テキスト トークンや位置トークンなどの個別のトークンのみが考慮されます。このモデルは、位置マーカーと画像全体を通じて画像領域のローカライズと理解を学習し、テキストの断片を画像領域に関連付け、位置マーカーを使用して画像領域の境界ボックスを出力することができます。KOSMOS-2 は、グラウンディングとリファレンスにおける新しい機能を実証します。参照機能により、境界ボックスを使用して画像領域を指定することができます。KOSMOS-2はバウンディングボックスの座標を通じてユーザーが指している画像領域を把握することができます。ポインティング機能は、新しい対話方法を提供します。テキスト出力のみを提供できる以前のマルチモーダル大規模言語モデル (ADL+22、HSD+22、HDW+23 など) とは異なり、KOSMOS-2 は視覚的な回答 (つまり、バウンディング ボックス) を提供し、テキスト出力と画像を組み合わせることができます。関連付けること。接地機能により、モデルはより正確で、より豊かで、より包括的な応答を提供できるようになります。KOSMOS-1で評価された視覚、言語、および視覚言語タスクに加えて、このモデルは、グラウンディングベースの画像キャプション生成、グラウンディングベースの視覚的質問応答、表現理解への言及など、より下流のタスクにも使用できます。などを生成します。

実験セットアップ:

  • 実験設定:
    この論文では、オブジェクトの説明 (境界ボックスなど) を認識し、テキストを視覚的な世界に関連付けるマルチモーダル大規模言語モデル (MLLM) である KOSMOS-2 を紹介します。モデルをトレーニングするには、マルチモーダル コーパスを使用して大規模な画像とテキストのペアのデータセット (GRIT と呼ばれます) を構築します。一般的なモダリティの認識、指示への従う、コンテキスト学習の実行などの既存の MLLM 機能に加えて、KOSMOS-2 には下流アプリケーションに連想機能も組み込まれています。私たちは、マルチモーダル連想、記述表現理解、記述表現生成、知覚言語タスク、言語理解と生成を含む幅広いタスクに関して KOSMOS-2 を評価します。実験では、フレーズ連想タスクの評価には Flickr30k Entities データセットを使用し、参照表現理解タスクの評価には Re-fCOCO、RefCOCO+、および RefCOCOg データセットを使用します。R@1、R@5、R@10 などのメトリクスを使用してモデルのパフォーマンスを評価します。

実験結果:

実験結果と分析:
KOSMOS-2 モデルは、広く使用されているフレーズ位置特定および指示表現理解タスクでテストされます。フレーズ ローカリゼーション タスクでは、モデルが 1 つ以上のフレーズが与えられた場合に一連の境界ボックスを予測する必要があります。参照表現理解タスクは、モデルが与えられた画像内でテキストの参照表現によって記述されるオブジェクトを特定することを促進します。

これら 2 つのタスクで KOSMOS-2 モデルをテストすることで、テキストの説明を視覚的な世界に関連付けるモデルのパフォーマンスを評価できます。これは、複雑なマルチモーダル タスクを処理できる高度な AI システムを開発するために重要です。

フレーズの位置特定と指示表現の理解タスクでは、KOSMOS-2 モデルで位置マーカーを生成する必要があります。その後、位置マーカーは評価のために境界ボックスに変換されます。入力形式は「Image Embeddings...」です。ここで、「」はモデルに位置マーカーの生成を促すために使用されます。Flickr30k エンティティ データセットの検証セットとテスト セットでフレーズ スポッティング タスクを評価します。曖昧さを減らすために、別のフレーズをキューとして使用する代わりに、現在のフレーズと前の単語を入力として使用し、前の単語をコンテキストとして使用します。

{フレーズ}

たとえば、図 4(1) に示す例では、モデルは、「男性」、「青いヘルメット」、「オレンジ色の安全ベスト」、および「交差点」という語句の位置を予測する必要があります。タイトルの冒頭に「ある男」というフレーズがあるため、プロンプトは「

「オレンジ色の安全ベスト」というフレーズのヒントは、「青いヘルメットをかぶった男性と、

オレンジ色の安全ベスト

画像内に複数の男性がいる場合、「青いヘルメットをかぶった男性」というコンテキストは、モデルがオブジェクトの位置を特定して曖昧さを軽減するのに明示的に役立ちます。

モデルの応答から位置マーカー「...」を取得し、それらを境界ボックスに変換します。KOSMOS-2 によって生成された位置シーケンスが正しく変換できない場合 (例: "<loc 1 >")、それをネガティブ サンプルとみなします。MDETR では ANY-BOX プロトコルを使用します。R@1、R@5、および R@10 メトリクスを報告します。ここで、R@1/5/10 は、生成された上位 1/5/10 の境界ボックスを使用してリコールが計算されることを意味します。KOSMOS-2 が生成する境界ボックスが 5 または 10 未満の場合、利用可能なすべての境界ボックスを計算に使用します。

フレーズ ターゲティングの結果 表 2: Flickr30k エンティティのフレーズ ターゲティングの結果。R@1、R@5、および R@10 メトリクスを報告します。ここで、R@1/5/10 は、生成された上位 1/5/10 の境界ボックスを使用してリコールが計算されることを意味します。すべての方法の精度を報告します。

VisualBert [LYY+19] モデルと比較して、KOSMOS-2 モデルは検証セットとテスト セットの両方で R@1 メトリクスを 7.4% 改善します。他のモデルとは異なり、KOSMOS-2 モデルには事前の設計 (オブジェクト クエリや提案など) が含まれていないため、R@1、R@5、および R@10 の間で同様の結果が得られます。これらの結果は、KOSMOS-2 モデルが冗長な位置を後処理することなく高品質の位置を生成できることを示しており、フレーズ ローカリゼーション タスクに取り組む際のモデルの有効性が強調されています。

参照式理解タスクを評価するために、3 つのよく知られたデータセット Re-fCOCO [YPY+16]、RefCOCO+ [YPY+16]、および RefCOCOg [MHT+15] を使用します。RefCOCO と RefCOCO+ は 2 人用ゲームを通じて生成されますが、RefCOCO+ は「左側」などの空間関係を排除するように特別に設計されています。RefCOCOg には空間リレーションが組み込まれており、平均して長い式が含まれています。Flickr30k エンティティのフレーズ ローカリゼーションとは異なり、参照式を入力として使用してこのタスクを測定します。

参照表現

たとえば、図 4(2) に示す例では、入力シーケンスは次のようになります。

青いヘルメットとオレンジ色の安全ベストを着た男性

同様に、グラウンド トゥルース境界ボックスに対して IOU が 0.5 より大きい予測境界ボックスのみが正しいとみなされます。デコードに失敗したシーケンスも陰性サンプルとみなされます。クエリ式の最初に生成された境界ボックスを使用して精度を測定します。 。

実験結果と分析:
(1) KOSMOS-2 モデルは、Flickr30k Entities データセット上のフレーズ位置特定タスクで良好なパフォーマンスを示し、R@1 インデックスは 7.4% 増加しました。
(2) KOSMOS-2 モデルは、参照式理解タスクにおいても高精度で良好な結果を達成しました。

P:5 06-26 MotionGPT: 外国語としての人間の動き

  • タイトル: MotionGPT: 外国語としての人間の動き

  • 著者: Biao Jiang、Xin Chen、Wen Liu、Jingyi Yu、Gang Yu、T​​ao Chen

  • 所属:復旦大学

  • キーワード: モーション言語モデル、事前トレーニング済み言語モデル、モーション生成、モーションキャプション、モーション予測、モーションインビトゥイーン

  • Paper:論文へのリンク
    Github:コードへのリンク

  • まとめ:

    • (1): この記事の研究背景は、言語と動作データの統一モデルの欠如であり、これが動作関連のタスクに課題をもたらしています。
    • (2): 以前の方法では、動作と言語を別個のモダリティとして扱っていたため、厳密にペアになったデータが必要であり、それらの関係についての包括的な理解が不足していました。この論文のアプローチは、人間の動作を特定の言語として扱い、事前にトレーニングされた言語モデルを活用して動作関連のタスクを強化するため、十分に動機付けられています。
    • (3): この論文で提案する研究方法論は、人間の動きを外国語として扱う動き言語モデルである MotionGPT です。モーション トークナイザーと事前トレーニングされた言語モデルを採用して、複数のモーション タスクを処理します。この革新性は、言語データと動作データの統合、および 2 段階のトレーニング スキームにあります。
    • (4): この論文の方法は、テキスト駆動のモーション生成、モーション キャプション、モーション予測、およびそれらの間のモーションを含む、さまざまなモーション タスクで最先端のパフォーマンスを実現します。このパフォーマンスは、統合されたモーション言語モデルを構築するという彼らの目標をサポートし、MotionGPT の革新性と貢献を示しています。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この論文では、言語データと大規模な言語データを組み合わせることで、モーション関連タスクのパフォーマンスを向上させるためのモーション言語の事前トレーニングを可能にする、統合された多用途で使いやすいモーション言語モデルである MotionGPT について説明します。モーションモデル。

b. 方法の詳細な手順:
(1). 動作言語の事前トレーニング: 人間の動作は、単語トークンの生成プロセスと同様に、離散ベクトル量子化を使用して動作トークンに変換されます。モーションとテキストにわたる統一言語モデリングのための「モーション ボキャブラリー」を構築することで、人間の動きを特定の言語として扱います。一方、プロンプト学習のアイデアを借りて、プロンプトベースの質問応答タスクの事前トレーニングと微調整に運動言語データを混合して使用します。

(2). モーション生成タスク: テキストベースのモーション生成タスクとモーション完了タスクを含みます。テキストベースのモーション生成のタスクは、ユーザーフレンドリーで便利な言語入力を通じて、多様で現実的な人間のモーションを生成することです。モーション完了のタスクは、古典的なモーション予測や中間モーション生成など、部分的なモーションを条件としたモーションを生成することです。本論文で提案する手法は既存の手法と比較して複数のタスクを処理でき、人間の動作を外国語として扱うことができる。

(3). 動作記述タスク: 動作を言語にマッピングすることを学習することで、自然言語を使用して人間の動作を記述することが可能になります。これまでの研究では、動きと言語のマッピングに統計モデルまたはリカレント ネットワークが使用されてきました。この論文で提案された方法は、動きを離散変数の短いシーケンスに圧縮し、ニューラル翻訳ネットワークを使用して 2 つのモダリティ間のマッピングを構築します。以前の研究と比較して、私たちの方法はモーション生成のトレーニングプロセスに記述モジュールを組み込むことができますが、テキストとモーションの間の双方向の変換によって依然として制限されます。

(4). 言語モデルとマルチモダリティ: 大規模言語モデル (LLM) は、幅広いデータセットとモデル サイズを通じて優れた理解力と生成機能を達成し、自然言語処理を新たな高みに押し上げました。この論文で提案された方法は、自然言語モデルと人間の動作タスクを組み合わせて、統一されたソリューションを提供します。

(5). モーション言語の事前トレーニング: 既存のテキストからモーションへの生成方法は通常、字幕からモーションへのアプローチに基づいており、モデルはプレーン テキストの記述を受け取ってモーションを生成します。ただし、これらのメソッドは通常、ユーザーが提供するコンテキスト固有の命令をサポートできません。この論文で提案された方法は、自然言語モデルを人間の動作タスクと効果的に統合することができ、動作合成の問題に対する統一された解決策を提供します。

実験セットアップ:

  • 実験設定:
    この論文では、複数のモーション関連タスク向けに統合され、多用途で使いやすいモーション言語モデルである MotionGPT を提案します。MotionGPT を構築するために、作者はまず単語トークンを生成するプロセスと同様に、人間の動きをモーション トークンに変換します。次に、彼らは動きとテキストの両方に対して言語モデリングを実行し、人間の動きを特定の言語として扱いました。MotionGPT を事前トレーニングするために、著者らはモーション言語データの混合物を取得し、プロンプトベースの質問応答タスクで微調整します。HumanML3D および KIT データセットは実験での評価に使用されます。HumanML3D データセットには AMASS からの 14,616 個のモーション シーケンスと 44,970 個のテキスト記述が含まれ、KIT データセットには 6,353 個のテキスト記述と 3,911 個のモーション シーケンスが含まれています。評価指標には、モーション品質、生成多様性、テキスト マッチング、言語品質が含まれます。実験結果は、MotionGPT が複数のモーション タスクで最先端のパフォーマンスを達成することを示しています。

(1). データセットの設定:

  • テキストからモーションへのタスクは、HumanML3D および KIT データセットを使用して評価されます。KIT データセットには 6,353 のテキスト記述と 3,911 のモーション シーケンスが含まれ、HumanML3D データセットには 14,616 のモーション シーケンスと 44,970 のテキスト記述が含まれます。
  • モーション予測タスクとモーション完了タスクは、一貫したモーション表現を持つ AMASS データセットのサブセットである HumanML3D データセットを使用して評価されます。
  • 評価に使用された運動表現方法は、関節の速度、位置、回転を組み合わせたものです。

(2). 評価指標:

  • モーション品質評価では、Frechet Inception Distance (FID) メトリックを使用して、生成されたモーションと実際のモーションの間の特徴分布距離を評価します。
  • 生成ダイバーシティ評価では、ダイバーシティ (DIV) メトリックとマルチモダリティ (MM) メトリックを使用します。これらのメトリックは、同じテキスト記述の下で生成された動きの分散と生成された動きの多様性をそれぞれ評価します。
  • テキスト マッチングの評価では、R 精度とマルチモーダル ディスタンス (MM Dist) メトリクスが使用され、それぞれマッチング精度とテキストとモーションの間の距離が評価されます。
  • 言語品質評価には、BLUE、Rouge、Cider、BertScore などの自然言語研究からの言語評価指標が使用されます。

(3). モデル設定:

  • MotionGPT は、モーション認識言語モデルの基礎となるアーキテクチャとして T5 を使用します。
  • モデルのサイズとトレーニング戦略は MotionGPT のパフォーマンスに影響を及ぼし、著者らは 60M、220M、770M の MotionGPT を含むさまざまなモデル サイズでそれを評価しました。
  • 著者らは、さまざまなモデル サイズに対するガイド付きチューニング戦略の効果も評価しており、その結果、ガイド付きチューニングが MotionGPT の多用途性とパフォーマンスを向上させることが示されています。

(4). タスクの比較:

  • 著者らは、MotionGPT を、テキストからモーション、モーションからテキスト、モーション予測、モーション完了タスクなどの他の方法と比較しています。実験結果は、MotionGPT がすべての評価タスクで競争力のあるパフォーマンスを達成することを示しています。

(5). モデルのサイズとトレーニング戦略の影響:

  • 著者らは、さまざまなモデル サイズが MotionGPT のパフォーマンスに及ぼす影響を評価し、その結果、220M の基本モデルはほとんどのタスクで大幅なパフォーマンスを達成する一方、モデル サイズが大きくなっても大幅な改善はもたらされないことがわかりました。

上記はこの論文の実験設定部分です。

実験結果:

実験結果と分析:
この論文では、いくつかのモーション関連タスクとデータセットでのパフォーマンスの広範な比較を通じて、MotionGPT モデルのパフォーマンスを評価します。実験セットアップには、データセットのセットアップ、評価指標、実装の詳細が含まれます。まず、さまざまなタスクについて他の方法と比較することによって、統一されたベンチマークが構築されます (セクション 4.2)。次に、テキストからモーション、モーションからテキスト、モーション予測、モーション間の移行などの特定のタスクが評価されます (セクション 4.2)。実験結果は、MotionGPT が、テキスト駆動のモーション生成、モーション サブタイトルの生成、モーション予測、モーション中間トランジションを含む複数のモーション タスクで最先端のパフォーマンスを達成することを示しています。

具体的な実験結果は以下の通りです。

  1. テキストからモーションへのタスクでは、MotionGPT は HumanML3D および KIT データセットで優れたパフォーマンスを発揮し、他の最先端の手法と比較して優れたパフォーマンスを達成します。
  2. モーションからテキストへのタスクでは、実際のテキスト記述を使用して評価された MotionGPT は、HumanML3D データセットに対する最近の研究 TM2T よりも優れたパフォーマンスを示し、結果はより正確です。
  3. モーション予測およびモーション遷移タスクでは、MotionGPT は AMASS データセット上で最高のモーション完了品質と多様性を示します。

さらに、実験では、さまざまなモデル サイズとガイド付きチューニング戦略が MotionGPT のパフォーマンスに及ぼす影響も評価します。結果は、220M の基本モデルが小型の 60M モデルに比べて大幅なパフォーマンス向上を達成していることを示しています。ただし、現在のモーション データセットのサイズは小さく、大規模なモデルのパフォーマンス向上には限界があり、パフォーマンスの低下につながる可能性もあります。ガイド付きチューニング戦略により、MotionGPT の多様性とモーション タスクのパフォーマンスが向上しますが、プレーン テキスト生成タスクではモデルのパフォーマンスが低下します。

要約すると、MotionGPT は複数のモーション関連タスクで競争力のあるパフォーマンスを示し、モデル サイズとガイダンス調整戦略がそのパフォーマンスに一定の影響を与えます。

P:6 06-26 テキストからのオントロジー知識ベースの強化: 概念の発見と配置のための生物医学データセット

  • タイトル: テキストからのオントロジー強化: 概念の発見と配置のための生物医学データセット

  • 要約: この論文は、テキストからオントロジー知識ベースを強化することを目的として、概念の発見と配置のための生物医学データセットを紹介します。既存のデータセットには、新しい概念がすでに発見されていると想定していること、概念ラベルのコンテキスト情報が不足していること、複雑な概念ではなく基本的な概念のみに焦点を当てていることなど、いくつかの問題があります。これらの問題に対処するために、この文書では、MedMentions データセットと SNOMED CT オントロジーを利用して、オントロジーにない概念の発見と配置をサポートするタスクを構築する、新しいベンチマーク データセットを提案します。

  • 著者: Hang Dong、Jiaoyan Chen、Yuan He、Ian Horrocks

  • 所属: オックスフォード大学

  • キーワード: オントロジーの強化、概念の発見、概念の配置、生物医学データセット

  • Paper:論文へのリンク
    Github:コードへのリンク

  • 論文の要約:

    • (1): この論文の研究背景は、特に科学的発見と知識ベースの構築にとって非常に重要である生物医学の分野において、テキストから新しい概念を発見し、それらを知識ベースに組み込むことです。
    • (2): 従来の手法には、新しい概念が発見されたと仮定していること、概念ラベルの文脈情報が不足していること、複雑な概念ではなく基本的な概念のみに焦点を当てていることなど、いくつかの問題がありました。私たちの方法はこれらの問題を改善し、新しいベンチマーク データセットを提供します。
    • (3): この論文は、知識ベースにないテキストから概念を発見し、それらをオントロジーに配置することをサポートする、新しいタスク設定とデータセット構築方法を提案します。データセットの有用性とパフォーマンスは、大規模な言語モデルベースのアプローチで評価することによって実証されます。
    • (4): 私たちの方法は、知識ベースにない概念や概念の配置を発見する際に優れたパフォーマンスを達成し、その目標を効果的にサポートできます。この論文の革新性は、新しいタスク設定とデータセットを提案し、評価に大規模な言語モデルを使用することです。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、テキストからオントロジーを強化し、新しい概念を知識ベースに挿入することによって概念の発見と配置を可能にする方法を提案します。

b. 方法の詳細な手順:
(1). 概念の発見と配置タスク: このタスクは、コーパス内のコンテキスト、知識ベース内の内部および外部概念を入力として受け取り、各外部概念が含まれる豊富な知識ベースを出力します。は、親概念と子概念の間の関係として知識ベースの有向エッジに挿入されます。外側の概念がリーフ概念である場合、子概念は空であるとみなされます。

(2). 主要な定義:

  • OWLオントロジー:主に⊑形式の一般概念包含公理で構成される一連の公理を含む記述論理知識ベース。
  • TBox: オントロジーの用語部分。主に ⊑ 形式の一般概念包含公理で構成されます。
  • 税理論: オントロジー内の概念と有向エッジのコレクション。これには、原子的な概念と複雑な概念が含まれる場合があります。
  • 複雑なエッジ: 複雑な概念を親として持つエッジ。論理演算子を含む概念を指します。
  • 理想的なデータセット: 現実世界のテキスト コーパスと大規模なオントロジーを含むデータセット。各外部概念がコーパス内の言及にリンクされ、それに対応するゴールドスタンダードの有向エッジがあります。

(3). KB とサブセットの選択:

  • SNOMED CT がオントロジーとして選択され、サブセットは疾患のサブカテゴリーと臨床所見、処置、薬剤/生物製剤などのより広範なカテゴリーに基づいて選択されました。
  • サブセットの選択は、等価公理を包含公理に変換するステップと、他のカテゴリを削除するステップの 2 つのステップで構成されます。

(4). KB バージョン管理:

  • KB バージョン管理戦略を使用して、古いバージョンの KB の外部エンティティを合成します。
  • 内部エンティティと外部エンティティを含む、古いバージョンの KB の有向エッジを抽出します。

(5). メンションエッジデータの作成:

  • メンションと UMLS エンティティ アライメントを含む MedMentions コーパスを使用して、メンション エッジ データセットが作成されました。
  • 各メンションとそれに対応するエッジを古いバージョンの KB の有向エッジにマッピングし、JSON 形式でデータを生成します。

(6). データは指標を評価するために使用されます。

  • このデータセットは、外部言及の場合は全体の適合率、適合率、再現率、F1 スコア、内部言及の場合は適合率、再現率、F1 スコアなどの評価指標をサポートします。

(7). 2 つのデータ形式が提供されます。

  • 言及レベルのデータ。各言及はエッジに対応します。
  • 言及とエッジのペア レベルのデータ。各言及とエッジのペアは 1 行を占め、複数のエッジがある場合は言及が繰り返されます。

(8). 統計:

  • データセットの統計には、さまざまなカテゴリのエッジの数が含まれます。

(9). 要約:
この論文は、新しい概念を知識ベースに挿入することによって概念の発見と配置を可能にする、テキストからオントロジーを強化する方法を提案します。具体的な手順には、コンセプトの検出と配置タスク、KB とサブセットの選択、KB のバージョン管理、エッジ抽出、メンションエッジ データの作成、評価指標のためのデータの使用が含まれます。この方法は、オントロジーを強化する上で重要な応用価値があります。

実験セットアップ:

  • 実験設定:
    このホワイト ペーパーの実験設定には、主に 2 つのタスクが含まれます。Out-of-KB Mention Discovery (ナレッジ ベース外のメンションの発見) と Concept Placement (コンセプトの配置) です。

(1). KB 範囲外のメンション検出タスク:

  • 実験は、ルールベースのアプローチと最近の大規模言語モデル (LLM) ベースのアプローチの両方を使用して実行されます。
  • LLM 手法では、テキストから KB への言及を検出するために BLINKout 手法が採用され、BERT ベースの 2 段階の手法 (候補生成と候補選択) が使用されます。このうち、KB 範囲外の言及は、クロスエンコーダーでの NIL エンティティ表現と分類によって検出されます。
  • 上限値 50 のドメイン固有の SapBERT モデルなど、デフォルトのパラメーターが使用されました。

(2). コンセプト配置タスク:

  • メンションとエッジのペアを使用してモデルをトレーニングおよび検証し、ナレッジ ベース内のメンションをナレッジ ベース内のゴールド スタンダードの有向エッジと照合し、教師なしセットアップを使用して KB 外のメンションをテストします。
  • モデル アーキテクチャには、エッジ候補の生成とオプションのエッジ選択が含まれます。エッジ候補の生成では、BERT ベースのデュアル エンコーダーを使用して、コンテキスト メンションとエッジ入力を通じてオントロジー内の有向エッジを照合します。
  • 上位エッジの中で上位のエッジを選択します。オプションのエッジ選択では、ゼロ ショット ヒント付き LLM (GPT-3.5) を使用して、正しいエッジを選択する機能をテストしました。
  • GPT-3.5 は、上位 50 のエッジ候補から上位 1 つを選択するために使用されます。ヒントは、タイトル、文脈上の言及、および最上位候補エッジで構成され、LLM にクエリを実行して正しいエッジを選択するために使用されます。

以上が本論文の実験設定です。

実験結果:

実験結果と分析:
この論文の実験には主に 2 つのタスクが含まれます: KB 外の言及の発見と概念の配置です。KB 範囲外のメンション検出タスクでは、ルールベースの手法と最近の大規模言語モデル (LLM) ベースの手法が実験に使用されます。実験結果は、LLM 法 (BLINKout) が、全体的な精度と KB 1 範囲外スコアの点でスクリーニング ベースの方法よりも優れていることを示しています。ただし、KB 範囲外の言及を特定することは依然として困難であり、精度は 15% ~ 30% の範囲です。

コンセプト配置タスクでは、モデルのトレーニングと検証にメンションとエッジのペアが使用され、ナレッジ ベース内のゴールド スタンダードの有向エッジと KB 内のメンションを照合し、KB 外のメンションをテストします。実験結果は、コンセプトの配置がエッジ予測として非常に難しいことを示しています。GPT-3.5 を使用して上位 1 エッジ候補を選択しても、結果は改善されないか、わずかしか改善されません。これは、形式化されたドメイン固有の知識を使用したゼロショット ヒンティングにおける現在の LLM アプローチの限界を示しています。

全体として、この論文は、概念の発見と配置を介してテキストからオントロジーを強化するための新しいベンチマークを提案します。このデータセットは、NIL 検出、文脈上の用語、概念の配置、および複雑な概念を含む、より包括的な機能セットをサポートします。実験結果は、現在の LLM 手法がこのベンチマークで依然として満足のいくパフォーマンスを発揮していないことを示しており、この課題に対処するにはさらなる研究が必要です。

P:7 06-26 SUGARCREPE: 視覚言語の構成性を修正するための脆弱なベンチマーク

  • タイトル: SUGARCREPE: 視覚と言語の構成性に関するハッキング可能なベンチマークの修正

  • 著者: Cheng-Yu Hsieh、Jieyu Zhang、Zixian Ma、アニルッダ ケンバヴィ、ランジャイ クリシュナ

  • 所属: ワシントン大学

  • キーワード: 視覚言語の構成性、ベンチマーク、ハッキング可能性、バイアス

  • 論文:論文へのリンク

  • Github:コードへのリンク

  • まとめ:

  • (1): この記事の研究背景は、視覚言語モデルの構成性の評価と公平なベンチマークの必要性です。

  • (2): 構成性を評価するためのこれまでの方法には重大なバイアスがあり、ハッキング可能であるため、不正確な結果が得られます。このペーパーのアプローチは、これらのバイアスに対処し、より信頼性の高いベンチマークを提供することを目的としています。

  • (3): この論文で提案する研究方法論は、視覚言語構成性評価の新しいベンチマークである SUGARCREPE の導入です。大規模な言語モデルを利用して流暢なハードネガを生成し、敵対的改良メカニズムを採用してバイアスを軽減します。革新性は、最新の言語モデルの使用と敵対的改良プロセスにあります。

  • (4): このペーパーの手法は既存のベンチマークで評価され、最先端のモデルと比較されます。SUGARCREPE で達成されたパフォーマンスは、以前のベンチマークの偏り、および視覚言語モデルの構成性を改善するためのより革新的な技術の必要性を浮き彫りにしています。

メソッドセクション:

方法の詳細な紹介:
a. 一文の概要: この文書では、視覚言語モデルの構成性を評価するための新しいベンチマークである SUGARCREPE を紹介します。SUGARCREPE は、大規模な言語モデルを使用して流暢で意味のあるハード ネガティブ サンプルを生成し、敵対的改善メカニズムを利用してバイアスを最小限に抑えることにより、既存のベンチマークのバイアスを大幅に軽減します。

b. メソッドの詳細な手順:
(1). SUGARCREPE ベンチマークの導入: COCO データセットに基づく画像とテキストのペア SUGARCREPE は、既存のデータセットの偏りに対する 2 つの重要な改善を提供し、(2) 広範囲のきめ細かい困難なデータセットをカバーします。否定的な例のタイプ。

(2). モデル スコア ギャップの計算:
- 各候補について、正の例と負の例について、モデル M1 および M2 のスコア ギャップ g(1)i および g(2)i を計算します。

(3). グリッド分割:
- 2D 空間 [-1, 1] × [-1, 1] を同じサイズの K × K グリッドに分割します。

(4). 候補の割り当て:
- スコアギャップ g(1)i と g(2)i に従って各候補をグリッドに割り当てます。

(5). 候補の選択:
- 候補セット D を空に初期化します。-原点 (0, 0) に関して対称な
グリッドの各ペア (Gj, G j) について: - |Gj| > |G j| の場合、Gj から |G j| 候補をランダムに選択して D に配置します。 G jの候補を D に入れます。- それ以外の場合は、G*j から |Gj| 個の候補をランダムに選択して D に入れ、Gj の候補を D に入れます。

(6). 敵対的な改良されたアルゴリズム:
- 対称性とは、実際の肯定的な例を推論するために常識と文法のスコアを使用できなくなることを意味します。
- 敵対的改善アルゴリズムの詳細な手順を提供します。

上記は、この論文の方法の詳細な手順です。このペーパーでは、SUGARCREPE ベンチマークと敵対的改善メカニズムを導入することで、既存のベンチマークに存在するバイアスの問題に対処し、視覚言語モデルの構成性を評価するより正確な方法を提供します。

実験セットアップ:

  • 実験設定:
    この論文では、SUGARCREPE と呼ばれる新しい視覚言語構成評価ベンチマークを紹介します。より合理的で流暢なハード ネガティブ サンプルを生成するために、研究者らは以前のルールベースのテンプレートの代わりに大規模言語モデル (ChatGPT) を採用しました。バイアスを最小限に抑えるために、研究者らは敵対的改良メカニズムも使用しました。SUGARCREPE のスコア差分布と以前のベンチマーク (ARO+CREPE) を比較することにより、研究者らは SUGARCREPE のハード ネガティブ サンプルのバイアスが低く、敵対的改善後に SUGARCREPE の評価セットのバイアスが最大化されていることを発見しました。減らす。さらに研究者らは、SUGARCREPE 上で事前トレーニングされた 17 個の CLIP モデルのパフォーマンスも評価し、現在のモデルには構成の点で改善の余地がまだ多くあることを発見しました。研究者らはまた、すべてのモデルが SWAP ハード ネガティブ サンプルを識別するのが難しい一方、既存の事前トレーニング済みモデルは属性や関係よりもオブジェクトを組み合わせる方が優れていることも発見しました。最後に、研究者らは、SUGARCREPE 上のモデルのパフォーマンスが ImageNet 上のゼロショット精度と正の相関があることも発見しました。

実験結果:

実験結果と分析:
実験結果と分析を通じて、この論文は次の結論を導き出します。

  1. SUGARCREPE は、より合理的で流暢なハード テキストを生成します。ChatGPT によって生成されたハード テキストを利用することで、SUGARCREPE は以前のルールベースの方法よりも高品質のハード テキストを生成します。

  2. SUGARCREPE は既存のベンチマークのバイアスを排除します。ARO+CREPE と SUGARCREPE のスコア差の分布を比較すると、SUGARCREPE のハードな例題テキストのバイアスを除去した後、スコア差の分布はゼロ点の周りで対称であることがわかり、前のバイアスを使用して正の例題を推測することはできないことがわかります。文章。したがって、既存のベンチマークでは大成功を収めたこれまでの常識攻撃や文法攻撃は、SUGARCREPE では機能しません。

  3. SUGARCREPE は、17 の事前トレーニング済み CLIP モデルを評価し、最適なモデルがオブジェクトの置換 (REPLACE-OBJ) タスクにおける人間のパフォーマンスに近いことを発見しました。ただし、置換属性 (REPLACE-ATT) や置換関係 (REPLACE-REL) などの他の具体的なサンプル タイプでは、最良のモデルと人間のパフォーマンスの間に明らかなギャップがあり、現在のモデルにはまだ構成可能性を向上させる大きな余地があることが示されています。

  4. すべてのモデルは、事前トレーニング データセットとモデルのサイズに関係なく、スワッピング (SWAP) の困難なケースを特定するのが困難です。SWAP-OBJ および SWAP-ATT のハード サンプルでは、​​すべてのモデルのパフォーマンスが低く、人間のパフォーマンスと 27% ~ 50% の差があります。

  5. 既存のモデルは、属性や関係よりもオブジェクトを構成することに優れています。この調査では、既存の事前トレーニング済みモデルの方が、属性や関係よりもオブジェクトを組み合わせる方が優れたパフォーマンスを発揮することがわかりました。さらに、ImageNet でのモデルのゼロショット精度は、SUGARCREPE での検索再現率と正の相関があります。

要約すると、この論文は実験結果と分析を通じて既存のベンチマークの脆弱性を明らかにし、事前トレーニングされた CLIP モデルのパフォーマンスを構成性の観点から評価します。実験結果は、現在のモデルには構成性の点でまだ改善の余地があることを示しており、モデルの構成性を評価するための新しいベンチマークとして SUGARCREPE を提案します。

P:8 06-26 プログラミング問題の解決における大規模言語モデルの堅牢性の探求

  • タイトル: プログラミングの問題を解決するための大規模言語モデルの堅牢性の探求

  • 論文概要: この論文では、プログラミングの問題を解決する際の大規模言語モデルの堅牢性について調査します。

  • Authors: Atsushi Shirafuji, Yutaka Watanobe, Takumi Ito, Makoto Morishita, Yuki Nakamura, Yusuke Oda, Jun Suzuki

  • Affiliation:
    University of Aizu (会津大学)

  • キーワード: 大規模言語モデル、コード生成、プログラミングの問題、プロンプト エンジニアリング

  • 論文:論文へのリンク
    Github: なし

  • 論文の要約:

  • (1): この論文の研究背景は、プログラミングの問題を解決するための大規模言語モデルの適用です。

  • (2): 過去の手法には問題があり、大規模な言語モデルが実際に問題の記述を理解して対応するプログラムを生成できるかどうかは発見されていません。

  • (3): この論文は、プログラミング問題を解決する際のいくつかの一般的な大規模言語モデルの堅牢性を実験的に評価する研究方法を提案し、最新のモデルは問題記述の処理においてより堅牢であることを発見しました。

  • (4): この論文は、プログラミング問題を解決するタスクに関していくつかの大規模な言語モデルのパフォーマンスを評価し、最先端のモデルが問題の記述を扱う際に高い堅牢性を備えていることを発見しました。 -高品質のコード生成。この研究は、開発者や研究者に、大規模な言語モデルを効果的に利用する方法についての洞察を提供します。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、実験を通じてプログラミング問題を解決する際の大規模言語モデル (LLM) の堅牢性を研究し、Codex と CodeGen は問題記述の表面的な変更に非常に敏感であるのに対し、InstructGPT と ChatGPT は問題の記述に非常に敏感であることを発見しました。モデルは表面の変更に対してより堅牢になります。

b. 方法の詳細な手順:
(1). 問題の説明のフォーマット: 問題の説明は、生成されたプログラム間の差異をチェックするために、事前定義されたルールのセットを使用してフォーマットされます。
(2). 問題の仕様を変更する: 問題の仕様を変更し、生成されたプログラムと解決率への影響を観察します。
(3). コード生成: LLM を使用してプログラミング コードを生成します。
(4). プログラムの自動評価: 生成されたプログラムを自動的に評価し、その出力が指定された形式の要件を満たしているかどうかを確認します。
(5). プログラムの手動評価: 生成されたプログラムを手動で評価し、その正確性と効率性を確認します。
(6). 解決率の計算:生成されたプログラムの解決率、つまり問題が解決できた割合を計算します。
(7). 実験結果の分析: 実験結果を分析し、ロバスト性の観点からさまざまなモデルのパフォーマンスを比較します。

上記は、問題記述のフォーマット化と問題仕様の変更、および生成されたプログラムの自動および手動評価によってプログラミング問題を解決する際の LLM の堅牢性を研究するための、この論文の方法ステップです。実験結果は、Codex と CodeGen は問題記述の表面的な変更に対して非常に敏感である一方、InstructGPT および ChatGPT モデルは表面的な変更に対してより堅牢であることを示しています。この発見は、LLM によって与えられるキューを注意深くフォーマットすることの重要性を強調すると同時に、SOTA モデルが摂動に直面してもより堅牢になることを示しています。

実験セットアップ:

  • 実験設定:
    この論文の実験は、プログラミングの問題を解決する際の大規模言語モデル (LLM) の堅牢性を調査することを目的としています。著者は、CodeGen や GPT-3.5 シリーズ モデルなど、いくつかの人気のある LLM を選択して、コード生成タスクの実験を実施します。実験は 2 つの部分に分かれています: 最初の部分では、生成されたプログラム間の違いをチェックするために、事前に定義された一連のルールに従って問題の説明をフォーマットします; 2 番目の部分では、問題の仕様を変更し、これらの変更がプログラムに及ぼす影響を観察します。生成されたプログラムと解決速度への影響。実験の枠組みを図 2 に示します。このセクションの実験では、各 LLM が 40 問に対して 100 個のプログラムを生成し、その結果が判定システムによって自動的に検証されます。表 1 は、さまざまな質問形式タイプにおける 4 つのモデル (CodeGen、Codex、InstructGPT、および ChatGPT) の平均解答率を示しています。

実験結果:

  • 実験結果と分析:

この研究では、プログラミングの問題を解決する際のいくつかの一般的な大規模言語モデル (LLM) の堅牢性を実験的に調査します。実験結果は、CodeGen と Codex が問題の説明の表面的な変更に非常に敏感であり、コード生成のパフォーマンスに大きな影響を与えることを示しています。さらに、この研究では、Codex は変数名に強く依存しており、変数をランダム化すると解決率が大幅に低下することも観察されました。ただし、InstructGPT や ChatGPT などの最先端のモデルは、表面の変更に対してより堅牢であり、プログラミングの問題を解決する優れた機能を備えています。これは、LLM によって与えられるヒントへのわずかな変更がコード生成のパフォーマンスに大きな影響を与える可能性があることを示しており、高品質なコード生成にはヒントを注意深くフォーマットすることが重要であり、最先端のモデルは摂動に対してますます堅牢になっています。 。

具体的な実験結果は以下のとおりである。
(1) あらかじめ定義されたルールで問題記述を整形する実験において、CodeGen、Codex、InstructGPT、ChatGPT の 4 つのモデルの平均解決率を表 1 に示す。
(2) 実験結果は、CodeGen と Codex は問題記述の表面的な変更に対して非常に敏感である一方、InstructGPT と ChatGPT は表面的な変更に対してより堅牢であることを示しています。
(3) Codex は変数名に大きく依存しており、変数をランダム化すると解決率が大幅に低下します。
(4) 最先端のモデル InstructGPT および ChatGPT は、より高い堅牢性でプログラミング問題を解決する際に優れたパフォーマンスを発揮します。

要約すると、この研究の実験結果は、LLM によって与えられるヒントへのわずかな変更がコード生成のパフォーマンスに大きな影響を与える可能性があり、最先端のモデルは摂動に対してますます堅牢であることを示しています。

P:906-26 堅牢な指令チューニングによる大規模マルチモーダル モデルの調整

  • タイトル: 大規模なマルチモーダル モデルと堅牢な命令チューニングの調整

  • 論文概要: この論文では、画像と人間の指示の相関関係に関する大規模マルチモーダル モデル (LMM) によって生成される一貫性のない記述に対処する方法を紹介します。大規模で多様な視覚的命令調整データセット (LRV-命令) を導入することで、著者らは LMM の幻覚問題を軽減し、公開データセットでより良いパフォーマンスを達成することに成功しました。さらに、著者らは、トレーニング データ内の正のインスタンスと負のインスタンスの比率のバランスをとると、より強力なモデルが得られることを観察しています。

  • 著者: Fuxiao Liu、Kevin Lin、Linjie Li、Jianfeng Wang、Yaser Yacoob、Lijuan Wang

  • 所属:
    Fuxiao Liu: メリーランド大学カレッジパーク校

  • キーワード: 大規模なマルチモーダル モデル、幻覚、視覚的命令の調整、ロバスト性、命令データセット

  • 論文:論文へのリンクGithub: なし

  • 論文の要約:

  • (1): この論文の研究背景は、マルチモーダル モデルには画像と人間の指示との相関において幻覚の問題があるということです。

  • (2): 従来の手法は主に肯定的な指示サンプルに焦点を当てており、否定的な指示サンプルの重要性を無視していました。この論文では、ポジティブおよびネガティブな命令を含む大規模なデータセットを提案し、GPT4 支援視覚命令評価 (GAVIE) メソッドによってモデルのパフォーマンスを評価します。

  • (3): この論文では、LMM の視覚的命令をより適切に調整するための LRV 命令データセットと GAVIE メソッドを提案します。LRV 命令で MiniGPT4 を微調整することで、幻覚の問題を軽減し、公開データセットでのパフォーマンスの向上に成功しました。

  • (4): この論文は、16 の視覚言語タスクに関する既存の LMM の幻覚問題を評価し、LRV 命令で MiniGPT4 を微調整することにより、他の方法よりも優れたパフォーマンスを達成します。これらの手法のパフォーマンスは、その目標をサポートし、データセットに対する革新と貢献という結果をもたらします。

メソッドセクション:

方法の詳細な紹介:

a. 一文の概要: この論文では、大規模で多様な視覚的命令調整データセット LRV-命令と、問題を軽減することに成功した新しい評価手法 GAVIE を導入することにより、大規模なマルチモーダル モデルに対するロバストな命令調整のための方法を紹介します。否定的な命令による既存のマルチモーダル モデルのエラー生成の問題。

b. 方法の詳細な手順:
(1). データセット LRV-命令の構築:
- GPT4 モデルに基づいて、テキスト注釈タスクでの成功経験を利用して、大規模な視覚的命令データセット LRV-命令が自動的に生成されました。
- LRV-命令には、GPT4 によって生成された 120k の視覚的命令が含まれており、オープンな命令と回答を含む 16 の視覚的および言語タスクをカバーしています。
- 主に肯定的な指示のサンプルに焦点を当てた既存の研究とは異なり、LRV-命令は、より堅牢な視覚的指示の調整のために、肯定的な指示と否定的な指示の両方を含むデータセットを設計します。
- 否定指令は、要素なしの操作と要素ありの操作の 2 つの意味レベルに分けられます。

(2). 提案する評価手法 GAVIE:
- マルチモーダルモデルの誤差生成を効率的に評価するために、本論文では新しい評価手法 GAVIE を提案する。
- GAVIE では、回答を参照として手動でマークする必要がなく、さまざまな指示形式に適応できます。

(3). 実験によりマルチモーダル モデルのエラー生成を検証:
- この論文は、包括的な実験を行うことにより、否定的な命令の下での既存のマルチモーダル モデルのエラー生成問題を検証します。
- 実験結果は、既存のマルチモーダル モデルが要素操作に対する否定的な命令の存在下で重大なエラーの生成を示すことを示しています。

(4). LRV 命令を使用した MiniGPT4 の微調整:
- LRV 命令で MiniGPT4 モデルを微調整することにより、エラー生成の問題が軽減され、パブリック データセットでのパフォーマンスが向上しました。
- 既存の方法と比較して、この論文の方法は少ないトレーニング データを使用してより良い結果を達成します。

(5). モデルの堅牢性に対する正と負のサンプルのバランスの取れた比率の影響を発見します:
- この論文では、トレーニング データ内の正と負のサンプルのバランスのとれた比率がモデルをより堅牢にすることができることを観察しています。

(6). その他の詳細:
- この文書では、Visual Genome データセットを使用して詳細な視覚情報を提供することや、回答の長さを制限することで生成される無関係な情報を削減することなど、データセット構築プロセスの詳細についても紹介します。

(7). アイテムリンク:
- この記事のアイテムリンクは、指定されたリンクにあります。

(8). プレプリントとレビューのステータス:
- この記事はプレプリントであり、レビュー中です。

実験セットアップ:

  • 実験設定:
    この論文では、MiniGPT4 [39] に基づいて、視覚的命令チューニングのためのモデルを構築します。このモデルは、画像エンコーダとしての Vision トランスフォーマ [22]、テキスト デコーダとしての Vicuna [7]、およびそれらを接続するための事前トレーニングされた Q-Former で構成されます。Q-Former は、フリーズされた画像エンコーダーから視覚的特徴を抽出するために使用されます。学習可能な線形投影レイヤーを使用して、抽出された視覚特徴とビクーニャ埋め込みの間のギャップを埋めてから、それらを視覚キューとして凍結ビクーニャに供給します。具体的なプロンプトは次のようになります。「次の画像を指定してください: ImageContent。画像を指定すると表示されるようになります。私の質問に答えてください。###人間: 指示 ###アシスタント: 回答」、ここで「ImageContent」 " は、画像の特徴が 2 つの特別なトークン "" と "" の間に配置されることを Vicuna に知らせるために使用されるテンプレートです。「」は実際の画像機能スロットです。「指示」と「回答」はそれぞれ人間による指示とモデルの出力テキストを示します。画像キャプションタスクにおける物体の幻覚を評価するために、CHAIR [29] が導入されました。ただし、CHAIR では通常、複雑な手動のルール作成が必要です。対照的に、[18] は物体幻覚の評価をバイナリ分類タスクとして形式化し、LMM に「はい」または「いいえ」の出力を促しました。ただし、LMM の出力をオープンエンド方式で評価することは困難です。さらに、どちらの方法も、人間が注釈を付けたグランドトゥルースの回答に大きく依存しています。したがって、この文書では、より柔軟で堅牢な方法として GPT4 支援視覚的指導評価 (GAVIE) を紹介します。私たちが使用する一般的なヒントを付録に示します。GPT4 は、高密度キャプションと境界ボックス座標を画像コンテンツとして取得し、人間の指示とモデルの応答を比較します。次に、GPT4 に知的な教師として機能して、生徒の答えを採点 (0 ~ 10) してもらいます。トレーニングの詳細に関しては、MiniGPT4 の最初のトレーニング前段階のチェックポイントからモデルを初期化します。次に、線形投影レイヤーを唯一の学習可能なモジュールとして使用して、データセットに対して命令チューニングを実行します。ハイパーパラメーターには、バッチ サイズ 1、最初の 200 ステップの線形ウォームアップ学習率 1e-6、および重み減衰 0 を使用します。05. NVIDIA Quadro RTX 8000 GPU でモデルをトレーニングし、トレーニング エポックの最大数は 20 です。評価用に 1,000 個のインスタンスをランダムに選択し、残りを微調整用に選択します。

実験結果:

実験結果と分析:
この論文では、MiniGPT4 ベースの視覚的命令調整モデルを構築することにより、既存の大規模マルチモーダル モデル (LMM) を幻覚させます。実験結果は、既存の LMM が否定的な命令に直面すると、特に要素ごとの操作が存在する場合に顕著な幻覚を引き起こす可能性があることを示しています。LRV 命令で MiniGPT4 を微調整することにより、幻覚が軽減され、公開データセットでのパフォーマンスが向上しました。さらに、実験では、トレーニング データ内の正のインスタンスと負のインスタンスの割合のバランスをとると、より堅牢なモデルが得られることも観察されています。

特定の実験の詳細と結果は入力には提供されません。

P:10 06-26 フォーム認識機械翻訳へのデータ駆動型アプローチ: 言語固有の処理と合成データ生成

  • タイトル: 形式に敏感な機械翻訳のためのデータ駆動型アプローチ: 言語固有の処理と合成データ生成

  • 著者:イ・スンジュン、ムン・ヒョンソク、パク・チャンジュン、イム・ヒソク

  • 所属:

  1. 高麗大学校コンピュータ科学工学科、ソウル02841、韓国
  2. 韓国京畿道アップステージ。
  • キーワード: 形式に敏感な機械翻訳、データ駆動型アプローチ、言語固有の処理、合成データ生成

  • 論文:論文へのリンク
    Github: なし

  • まとめ:

    • (1): この記事の研究背景は、言語間で翻訳されたテキストの形式性のレベルを制御する形式依存型機械翻訳 (FSMT) の必要性です。
    • (2): ニューラル機械翻訳 (NMT) モデルのこれまでの方法では、形式や形式などの実用的な側面が見落とされていました。言語間でさまざまな形式レベルや多様な形式マーカーを備えたゴールドスタンダードの翻訳が存在しないことが課題となっています。この文書のアプローチは、これらの課題に対処することを目的としています。
    • (3): この論文で提案されている調査方法は、FSMT に対するデータ中心のアプローチです。これには、大規模な言語モデルとプロンプト エンジニアリングを使用した、言語固有のデータ処理と合成データ生成が含まれます。この革新性は、データ中心の技術と迅速なエンジニアリングを効果的に使用して、翻訳パフォーマンスを向上させることにあります。
    • (4): このペーパーの方法は、英語-韓国語 (EN-KO) および英語-ベトナム語 (EN-VI) の言語ペアで評価されます。BLEU スコア、COMET スコア、%M-ACC、%CF に関して達成されたパフォーマンスは、特に EN-KO および EN-VI 翻訳におけるアプローチの有効性を示しています。このパフォーマンスは形式管理を達成するという目標をサポートし、ChatGPT の翻訳機能を示しています。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、主に言語固有のデータ処理を含み、大規模な言語モデルと経験的ヒントを使用して、4 つのターゲット言語の固有の言語特性に対処する、データ駆動型形式的知覚機械翻訳アプローチを紹介します。エンジニアリングは、合成データを生成するための 2 つの中心的な戦略です。

b. 方法の詳細な手順:
(1). 言語固有のデータ処理: 言語固有のデータ中心のアプローチを使用し、各言語ペアの教師付きトレーニング セットを実行することにより、転移学習技術と言語固有のサブワード アプローチを組み合わせます。翻訳パフォーマンスを向上させるための事前トレーニングと微調整。

(2). 合成データの生成: リソースが少ない設定や過小評価されているドメインの場合、データ中心のアプローチを採用して合成サンプルを生成します。GPT-4 エンジンを使用した ChatGPT は合成データを生成し、条件付き翻訳生成タスクとフォーム分類子の改良を通じて正確なフォーム制御を保証します。

(3). 教師あり設定: ヒントベースのアプローチを使用して、さまざまな言語ペアの英語トレーニング セットから n 個のセグメントをコンテキストとしてランダムに選択し、ChatGPT が公式または非公式のターゲット言語で翻訳を生成するようにガイドします。事前トレーニングされた多言語翻訳モデルを使用して微調整する前に、例を正確に正式にフィルタリングします。このアプローチは、さまざまな言語および形式レベルにわたってモデルの一般化能力を最大化し、事前トレーニング済み言語モデルの機能を拡張する際の合成データの有用性を実証します。

実験セットアップ:

  • 実験設定:
    この文書では、4 つのターゲット言語に対するフォーム認識型機械翻訳 (FSMT) へのデータ駆動型アプローチを紹介します。この方法の中核となる戦略には、1) さまざまな言語のデータ処理、2) 大規模な言語モデルと経験的ヒント エンジニアリングを使用した合成データの生成が含まれます。この方法は、ベースライン モデルに比べて大幅な改善を達成し、データセンター技術の有効性を強調しています。当社のヒント エンジニアリング戦略は、より優れた合成翻訳例を生成することで、パフォーマンスをさらに向上させます。

(1). データ中心のアプローチは、教師あり学習とゼロショット設定の両方で有望な結果を達成します (詳細については、表 1 および 2 を参照してください)。フォーム認識データセットでトレーニングされた私たちのモデルは、ほとんどのタスク、特に EN-KO と EN-VI の言語ペアで、ほぼ完璧なフォーム制御と高い翻訳精度を示します。ただし、ChatGPT によるデータの拡張はパフォーマンスの低下につながる場合があり、正式な制御のためのより詳細な手がかりを考慮する必要があることを意味します。特に、ゼロショット EN-PT タスクの結果は大幅に低く、各言語ペアの正式な制御に特殊な技術が必要であることを示し、ChatGPT におけるトレーニング データのバイアスの可能性を明らかにしています。私たちは、言語固有の技術と合成データ生成を組み合わせた FSMT へのデータ中心のアプローチを提案します。

(2). 実験データには、フォーム認識データセットと ChatGPT によって生成された合成データが含まれます。フォーム認識データセットは、モデルをトレーニングし、さまざまなタスクでのモデルのパフォーマンスを評価するために使用されます。ChatGPT によって生成された合成データは、モデルの汎化能力を向上させるデータ拡張に使用されます。実験で使用された言語ペアには、EN-KO、EN-VI、EN-PT が含まれます。

(3). 実験における評価指標には、形式制御能力と翻訳精度が含まれます。形式制御は、計算モデルによって生成された翻訳結果がターゲット形式とどの程度一致するかによって測定されます。翻訳精度は、モデルによって生成された翻訳と参照翻訳の間の BLEU スコアを計算することによって測定されます。

(4). 実験結果は、データ中心のアプローチがフォーム認識型機械翻訳タスクの大幅な改善を達成することを示しています。このモデルは、ほとんどのタスクで高い形式制御と変換精度を示します。ただし、ChatGPT によって生成された合成データを使用したデータ拡張は、一部のタスクでパフォーマンスの低下につながる可能性があります。これは、フォーム制御の観点から、より洗練されたヒント エンジニアリング戦略の必要性を示唆しています。

(5). 実験結果は、ゼロサンプル EN-PT タスクの課題と ChatGPT トレーニング データのバイアスの問題も明らかにします。これは、形式を意識した機械翻訳には、各言語ペアに特化した形式制御技術が必要であることを示唆しています。

(6). 私たちのアプローチは、言語固有の技術と合成データ生成を組み合わせた、フォーム認識型機械翻訳のためのデータ駆動型ソリューションを提供します。このアプローチは、形式的な制御と翻訳の精度を向上させる可能性があり、さらなる研究に光を当てることができます。

実験結果:

実験結果と分析:
この論文では、4 つのターゲット言語に対するデータ駆動型の形式依存機械翻訳 (FSMT) アプローチを紹介します。このアプローチでは、2 つの核となる戦略が採用されています。1) 言語固有のデータ処理、2) 大規模な言語モデルと経験的ヒント エンジニアリングを使用した合成データ生成です。実験結果は、このデータ中心のアプローチがベースライン モデルに比べて大幅な改善を達成することを示しており、データ中心の手法の有効性が強調されています。当社のヒント エンジニアリング戦略は、より優れた合成翻訳例を生成することで、パフォーマンスをさらに向上させます。

具体的な実験結果は以下の通りです。

  1. 教師あり設定では、Formality Dataset に対するデータ中心のアプローチによってトレーニングされたモデルは、ほとんどのタスク、特に EN-KO および EN-KO. VI の言語調整において、ほぼ完璧なフォーム制御と高い翻訳精度を示します。
  2. ただし、ChatGPT を使用したデータの拡張はパフォーマンスの低下につながる場合があり、形式的な制御を考慮する場合には、より洗練されたヒントが必要であることを意味します。特に、ゼロショット EN-PT タスクの結果は大幅に低く、各言語ペアの正式な制御に特殊な技術が必要であることを示唆し、ChatGPT におけるトレーニング データのバイアスの可能性を明らかにしています。
  3. 私たちは、言語固有の技術と合成データ生成を組み合わせた FSMT へのデータ中心のアプローチを提案します。

実験結果は、私たちの方法がフォームを意識した機械翻訳タスクで有望な結果を達成し、異なる言語の特性に合わせたデータ処理と合成データ生成を実行することで翻訳パフォーマンスを大幅に向上できることを示しています。ただし、正式な制御には、より精緻なヒント エンジニアリングとさまざまな言語ペアの専門知識が依然として必要です。これらの実験結果は、フォーム認識型機械翻訳をさらに改善するための貴重な参考資料となります。

P:11 06-26 ChatIDS: 生成人工知能を使用した説明可能なサイバーセキュリティ

    1. タイトル: ChatIDS: 生成 AI を使用した説明可能なサイバーセキュリティ
  • 要約: この文書では、生成人工知能を使用して IDS アラートを解釈し、大規模な言語モデルを介して非専門ユーザーにセキュリティ対策の直感的な説明を提供する ChatIDS アプローチを紹介します。

    1. 著者: ヴィクター・ユトナー、マーティン・グリマー、エリック・ブッフマン
    1. 所属:
      ドイツ、ライプツィヒ大学コンピュータサイエンス学部
    1. キーワード: 侵入検知、ChatGPT、ネットワーク
    1. 論文:リンクGithub: なし
    1. 論文の要約:
  • (1): この論文の研究背景は、プライベート ネットワーク、特にホーム ネットワーク、スマート ホーム、リモート オフィスなどのシナリオにおける、IDS アラームが専門家以外のユーザーにとって理解しにくいシナリオにおけるネットワーク セキュリティの問題です。

  • (2): これまでの方法では、専門家以外のユーザーが IDS アラートを理解し、適切なアクションを実行できないという問題を解決できません。私たちの方法では、大規模な言語モデルを使用して、安全対策に関する直感的な説明と推奨事項を提供することで、この問題に対処しています。

  • (3): 本論文では、大規模言語モデルにIDSアラートを送信することで直感的な説明を生成し、対話的に質問できるChatIDS手法を提案します。このアプローチは革新的であり、IDS アラームの解釈に貢献します。

  • (4): この論文は、典型的な IDS アラートについて実験を行い、その結果、ChatIDS が直感的なセキュリティ対策提案を提供できることを示しました。しかし、ChatIDS が実際にネットワークのセキュリティを向上させるかどうかは、ユーザーの違いにより測定することが困難です。この文書の革新性と貢献は、IDS アラートを解釈し、セキュリティ対策の推奨事項を提供するための実行可能な方法を提供することです。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この論文では、生成人工知能モデルを活用して侵入検知システム (IDS) のアラートを非専門ユーザーに解釈し、セキュリティ対策の直感的な推奨事項を提供することで、ネットワーク セキュリティの性を高める ChatIDS と呼ばれる手法を提案します。

b. 方法の詳細な手順:
(1). ChatIDS の情報の流れを図 1 に示します。ネットワーク IDS コンポーネントは、ルーターを通過するネットワーク パケットを検査し、不審なトラフィックに対するアラートを生成します。IDS は、アラート メッセージが大規模言語モデル (LLM) で使用できるほど具体的であるように、署名ベースの IDS である必要があります。

(2). LLM コンポーネントには、IDS アラートを専門家以外のユーザーが理解できる言語に翻訳する役割を担う大規模な言語モデルが含まれています。さらに、このコンポーネントは対話的に使用できます。ユーザーが説明や提案されたアクションを理解できない場合は、詳細を尋ねることができます。IDS と同様に、LLM も ChatIDS の外部コンポーネントです。

(3). ChatIDS コンポーネントは、私たちのアプローチの中核です。ChatIDS は、IDS コンポーネントからアラートを受信し、直感的な説明を含む翻訳のために LLM コンポーネントにアラートを送信し、説明を含むユーザー インターフェイスをユーザーに表示します。ユーザーがさらにサポートを必要とする場合は、インターフェイスを使用してフォローアップの質問を LLM に送信できます。アラートを直感的な説明に変えるために、ChatIDS コンポーネントには事前定義された LLM プロンプト テンプレートが含まれています。

(4). プライバシー上の理由から、ChatIDS はアラートを LLM コンポーネントに送信する前に 3 つの方法で匿名化します: まず、ChatIDS はアラートからデバイス ID またはネットワーク情報を削除します。次に、ChatIDS は、一連の誤ったアラートとともに匿名アラートを LLM コンポーネントに送信し、このコンポーネントが実際のアラートを判断できないようにします。LLM コンポーネントの解釈はキャッシュに保存されるため、同じ解釈を繰り返し要求する必要はありません。このペーパーには進行中の作業が含まれているため、選択したユースケースを使用して ChatIDS を評価します。

実験セットアップ:

  • 実験設定:
    この論文の実験設定は次のとおりです。まず、複数のスマート ホーム デバイスを備えたホーム ネットワークを想定します。ルーターはネットワークをインターネットに接続し、すべてのネットワーク パケットを監視できます。この実験では、Philips Hue Bridge という名前のデバイスが侵害されたと仮定します。ネットワーク ベースの侵入検知システム (IDS) を実装するには、Snort、Suricata、Yara、または Sigma ルール セットのいずれかがルーターにインストールされます。各 IDS 実装から、実験用に 2 つのアラートが選択されます。これらのアラートは重大として分類されており、ユーザーの介入が必要です。実験の目標は、ユーザーが理解できる方法でアラートを説明し、明確でシンプルな非技術的な指示をユーザーに提供することです。これを実現するために、ChatGPT (gpt-3.5-turbo) を使用して ChatIDS を実装し、各アラートは ChatGPT のヒントに埋め込まれます。実験結果は、ChatIDS が直感的な言語を提供することでネットワーク セキュリティを向上させる可能性があることを示しています。ただし、ChatIDS を実際のアプリケーションに導入する前に、信頼、プライバシー、倫理などのいくつかの潜在的な問題を解決する必要があります。

実験結果:

  • 実験結果と分析:
    ChatIDS は、生成人工知能 (AI) を活用して侵入検知システム (IDS) のアラートを解釈する方法です。研究者らは、ChatGPT モデルを使用して ChatIDS の実現可能性を評価し、人工知能分野の学際的な専門家と協力して、いくつかの未解決の研究課題を特定しました。実験結果は、ChatIDS が直感的な言語で意味のあるセキュリティ対策を提案することにより、ネットワーク セキュリティを向上させる可能性があることを示しています。ただし、ChatIDS を実際のアプリケーションに導入する前に、信頼、プライバシー、倫理などのいくつかの潜在的な問題を解決する必要があります。

ChatIDS に関する実験結果は、ChatGPT を使用して生成された説明が問題の説明と理解の点で優れたパフォーマンスを発揮することを示しています。生成された説明はすべて正しく、ChatGPT はアラートを無視した場合の結果を説明し、緊迫感を伝えることができます。ただし、対策の説明や直感的でない用語の使用には、まだ改善の余地があります。

全体として、ChatIDS の実験結果はその可能性と実現可能性を示していますが、いくつかの潜在的な問題を解決し、実際のアプリケーションでの有効性と信頼性を確保するには、さらなる研究と改善が必要です。

P:12 06-26 Fauno: 言葉を失う大きなイタリア語モデル!

    1. タイトル: ファウノ: 仮釈放を可能にするイタリア語大型言語モデル!
  • 論文概要: この論文では、最初で最大のオープンソースのイタリア語会話大規模言語モデル (LLM) である Fauno について説明します。Fauno では、イタリア語モデルの研究を民主化し、単一の GPU のみを使用して細かく調整された会話ボットを取得できることを実証することを目指しています。さらに、イタリア語の会話型 AI 用の一連のデータセットをリリースしました。Fauno で私たちが微調整しているデータセットには、一般的な質問への回答、コンピューター サイエンス、医学的な質問など、さまざまなトピックが含まれています。コードとデータセットを https://github.com/RSTLess-research/Fauno-Italian-LLM でリリースしました。

    1. 著者: アンドレア・バッチュ、ジョバンニ・トラッポリーニ、アンドレア・サンティッリ、エマヌエーレ・ロドラ、ファブリツィオ・シルヴェストリ
    1. 所属:
      サピエンツァ大学 - コンピューター、制御および管理工学部 (アンドレア・バッチュ、ジョバンニ・トラッポリーニ、ファブリツィオ・シルヴェストリ)
      サピエンツァ大学 - コンピューターサイエンス学部 (アンドレア・サンティッリ、エマヌエーレ・ロドラ)
    1. キーワード: 大規模言語モデル、会話型 AI、多言語モデル、ChatGPT
    1. 論文: なし Github: https://github.com/RSTLess-research/Fauno-Italian-LLM
    1. 論文の要約:
  • (1): 本論文の研究背景は、自然言語処理手法の能力向上と会話言語モデルの開発です。

  • (2): 過去の手法ではアクセスが制限され、データセットが不足しており、研究開発の進歩が制限されています。私たちのアプローチは、イタリア語会話言語モデルを微調整してトレーニングすることにより、オープンソースの効率的なイタリア語会話 AI ツールを提供します。

  • (3): この論文では、最初で最大のオープンソースのイタリア語会話言語モデルである Fauno について説明します。複数のデータセットを翻訳して微調整することにより、Fauno はイタリア語で優れた生成結果を達成します。これはイタリア語研究コミュニティに効率的なツールを提供し、実践者にイタリア語の効果的な会話 AI を提供します。

  • (4): 私たちの方法は複数のタスクで優れたパフォーマンスを達成し、その目標と革新をサポートします。Fauno はオープンソースであり操作性が高いため、より幅広い実務者や研究者が使用できるようになります。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この文書では、最初で最大のオープンソースのイタリア語会話大規模言語モデル (LLM) である Fauno を紹介します。私たちの目標は、Fauno を使用してイタリア語で微調整された会話ボットを実装し、これが 1 つの GPU のみを使用して達成できることを実証することです。さらに、FAQ、コンピューター サイエンス、医学的な質問など、さまざまなトピックをカバーするイタリア語の会話型 AI 用の一連のデータセットをリリースしました。

b. 方法の詳細手順:
(1). SSH 経由でサーバーからファイルをコピーする方法:
- 次のコマンドを使用します: scp username@ip_dello_server:percorso/della/sorgente/del/file /percorso/della/destinazione/ del/file
- コマンドの詳細をユーザー名、ホスト名、ソース ファイル パス、ターゲット ファイル パスに置き換えて、「Avanti」を押します。
- ファイルはサーバーからコンピューターにコピーされます。

(2). ChatGPT-3.5、Camoscio、および Fauno 7B の定性分析:
- 対話生成におけるパフォーマンスを比較するための ChatGPT-3.5、Camoscio および Fauno 7B の定性分析。

(3). 限られたリソースで複数言語で LLM 研究を民主化する:
- この文書では、限られたリソースで複数言語で LLM 研究を民主化する方法を示します。
- Fauno の研究を通じて、限られたリソースのみを使用して、微調整された会話ボットもイタリア語で実装できることが実証されました。

(4). イタリア語対話人工知能データセットのリリース:
- この記事では、イタリア語対話人工知能の一連のデータセットをリリースします。
- これらのデータセットは、FAQ、コンピューター サイエンス、医学的な質問など、多様なトピックをカバーしています。
- これらのデータセットのリリースは、研究者が大規模な言語モデルをさらに開発するのに役立ちます。

(5). その他の詳細:
- この記事にはその他の詳細や手順も含まれていますが、紙面の都合上、すべてを記載することは不可能です。

要約すると、この論文は、イタリア語の会話型大規模言語モデルである Fauno のアプローチを紹介します。イタリア語での対話の生成は、微調整と限られたリソースの使用によって実現されました。同時に、イタリア語対話人工知能の一連のデータセットもリリースされており、研究者が大規模な言語モデルをさらに開発するのに役立ちます。

実験セットアップ:

  • 実験設定:
    この文書では、最初で最大のオープンソースのイタリア語会話大規模言語モデル (LLM) である Fauno を紹介します。著者の目標は、Fauno を使用したイタリア語モデルの研究を進め、単一の GPU のみを使用して細かく調整された会話ボットを取得できることを実証することです。さらに、著者らはイタリア語会話 AI の一連のデータセットをリリースしました。著者らは、一般的な質問応答、コンピューター サイエンス、医療に関する質問など、複数の主題からのデータセットを使用して Fauno を微調整しました。

(1). Fauno は、最初のオープンソースのイタリア語会話大規模言語モデル (LLM) です。
(2). 著者の目標は、イタリア語モデルの研究を進め、GPU を 1 つだけ使用して細かく調整された会話ロボットを取得できることを証明することです。
(3). 著者はイタリア語対話人工知能の一連のデータセットをリリースしました。
(4). 著者は、一般的な質問への回答、コンピューター サイエンス、医学的な質問など、複数の主題からのデータセットを使用して Fauno を微調整しました。

実験結果:

  • 実験結果と分析:
    この論文では、最初で最大のオープンソースのイタリア語会話大規模言語モデル (LLM) である Fauno について説明します。Fauno をカスタム トレーニングすることで、単一の GPU を使用して細かく調整された会話ボットを取得できることを示し、イタリア語モデルの研究を民主化することを目指しています。さらに、一般的な質問応答、コンピューター サイエンス、医療に関する質問など、いくつかのトピックをカバーするイタリア語会話 AI の一連のデータセットをリリースしました。

    Fauno の出力を定性的に分析することにより、ChatGPT 3.5 および Camoscio と比較されます。表 1 では、ChatGPT 3.5、Camoscio、および Fauno を比較しています。「Qual è il senso della vita?」(人生の意味は何ですか?)という質問に対する ChatGPT の答えは、人生の意味についての哲学的および神学的思考は、明確で一貫した答えがないまま何世紀にもわたって続いている、というものです。しかし、多くの人はさまざまな方法で人生の意味や目的を見つけます。人間関係や有意義な関係を通して意味を見つける人もいれば、個人的な達成や情熱の発展を通して意味を見つける人もいます。さらに、霊性や信仰を求めることでより深い意味を見出す人もいます。全体として、人生の意味は非常に個人的で主観的な経験になる可能性があり、この質問に対する答えは人それぞれ異なる可能性があります。カモシオの答えは、人生の意味は人生の幸福と充足感を見つけることだ、というものです。さらに、表 1 には、ChatGPT-3.5、Camoscio、および Fauno 7B の定性分析の比較も示されています。

    概要: 初にして最大のオープンソースのイタリア語会話大規模言語モデルである Fauno は、他のモデルと比較して定性分析によって質問に答える能力を示しています。

P:13 06-25 コードの復号化: 判別特徴分析とデータセットの最適化を通じて、ChatGPT で生成されたコードと人間が作成したコードを区別します。

  • タイトル: コードの解読: 識別特徴分析とデータセット最適化による ChatGPT 生成コードと人間作成コードの区別

  • 著者: Ke Li、Sheng Hong、Cai Fu、Yunhe Zhang、Ming Liu

  • 所属: 中国湖北省武漢の華中科学技術大学サイバー科学技術学部

  • キーワード: ChatGPT、コード微分、データセット クレンジング、機械学習

  • 論文:論文へのリンク

  • Github: なし

  • まとめ:

    • (1): この記事の研究背景は、安全性、合法性、知的財産に対する懸念から、ChatGPT によって生成されたコードと人間が作成したコードを区別する必要があるということです。
    • (2): コードの作成者の帰属に関するこれまでの方法では、ChatGPT が生成したコードと人間が作成したコードとの間の微妙な区別を捕捉できない可能性があります。この文書のアプローチは、この問題に対処するための十分な動機を持っています。
    • (3): 本論文で提案する研究方法論には、差別化のための識別特徴セットの開発と、高品質のデータセットを取得するためのデータセットクレンジング技術が含まれます。革新性は、機能セットとデータセット クレンジング戦略の有効性にあります。
    • (4): この論文の方法は、バイナリ分類タスクにおいて ChatGPT が生成したコードと人間が作成したコードを区別する際に高い精度を達成します。このパフォーマンスは、学術的誠実性の促進、知的財産の保護、ソフトウェア セキュリティの強化という目標をサポートします。革新と貢献には、識別機能セット、データセット クレンジング技術、および広範なデータセット生成が含まれます。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この文書は、ChatGPT で生成されたコードと人間が作成したコードのプログラミング スタイル、技術レベル、読みやすさの違いを明らかにすることを目的としています。この目的を達成するために、研究者らは識別機能セットを開発し、アブレーション実験を通じてその有効性を評価しました。さらに、データセットの欠陥を軽減し、時間的および空間的セグメンテーションを通じて高品質で汚染のないデータセットを取得するためのデータセット クリーニング手法を考案しました。データ リソースを強化するために、研究者らは「コード変換」、「特徴変換」、「特徴カスタマイズ」の技術を採用し、ChatGPT によって生成された 10,000 行のコードを含む大規模なデータセットを生成しました。この研究の注目すべき貢献には、二値分類タスクにおいて ChatGPT が生成したコードと人間が書いたコードを高精度で区別するための一連の識別特徴セットの提案、大規模な ChatGPT が生成したコードを生成する方法の設計、データセットの導入が含まれます。クリーン戦略により、オープンソース コード ベースから汚染のない高品質のコード データセットを抽出し、コード作成者の帰属タスクで優れた精度を達成します。

b. 方法の詳細な手順:
(1). 従来のコード作成者帰属方法の改善: この研究は、従来のコード作成者帰属方法の方法論を利用していますが、このタスクの特殊性に応じて特徴抽出プロセスを調整します。従来のコード作成者の帰属は、異なる個人によって書かれたコードを区別することを目的としていますが、この研究の目標は、人間によって書かれたコードと ChatGPT によって生成されたコードを 2 つの異なるカテゴリに分類することです。したがって、特徴の選択を変更する必要があります。研究者らは、ヒューリスティックなコード特徴分析を実行することで、従来のコード作成者の属性から特徴を選択するアプローチを採用しました。これにより、人間が書いたコードと ChatGPT が生成したコードを効果的に区別する一連の識別機能を構築できるようになりました。この機能セットには、語彙機能、構造レイアウト機能、および意味論機能という 3 つの主要なカテゴリが含まれています。このきめ細かい機能セットは、従来のコード作成者の属性調査で通常使用されるものとは異なり、このタスク専用に調整されています。次のサブセクションでは、機能セットの各カテゴリの設計方法を詳しく説明します。

(2). 語彙特徴の分析: 研究者らは、分析のためにコード内の語彙を 4 つの異なるカテゴリ (コメントと文字列、識別子、キーワード、インポートされたライブラリ) に分類しました。コメントと文字列には、単一行コメントと複数行コメント、および二重引用符で囲まれた文字列が含まれます。これらのテキスト ブロックは、作成者のテキスト スタイルを反映しています。識別子にはクラス名、メソッド名、変数名、インターフェイス名が含まれており、これらにより作成者の命名規則やライブラリの使用パターンが明らかになります。キーワードは、構文構造、制御フロー、データ型、変数宣言を制御するために使用されるプログラミング言語に固有の予約語です。キーワードの使用法を分析すると、その言語での作成者のプログラミング実践についての洞察が得られます。インポートされたライブラリには、コード内の "include" (C++) または "import" (Java) ステートメントによって取り込まれた標準ライブラリとサードパーティ ライブラリが含まれます。これは、著者がさまざまなライブラリに精通していることを反映しています。字句解析を実行する前に、研究者らは識別子のキャメルケースやアンダースコアを考慮してコードをトークン化しました。コメント、文字列、識別子の単語を区切るにはスペースと句読点が使用されます。次に、これらのトークンを分割し、命名規則に従って小文字に変換します。キーワードの場合、トークンを言語固有のキーワードのセットと比較します。インポートされたライブラリの場合、エンティティを表し、作成者のスタイルを反映しているため、完全な名前が保持されます。彼らは、各語彙タイプの数を数え、これらのカテゴリ内の各単語の用語頻度 (TF) を計算しました。ChatGPT コード データセットの初期分析中に、研究者らは、ChatGPT が特定の一般的な書式設定標準に従っていることを観察しました。これも人間が作成したコードの典型ですが、従来のコード作成者の属性におけるレイアウト機能を差別化要素として直接使用することは効果的ではありません。しかし、厳密な比較分析を通じて、研究者らは、ChatGPT によって生成されたコードに特有の、微妙だが際立ったレイアウトと構造的特徴を明らかにしました。彼らは、コメントの割合、空行の割合、中括弧の前の改行の有無、平均ネスト深さ、インデントの長さ、関数内のパラメータの平均数などの側面を含む、22 のそのような特性を特定しました。これらの機能はコーディング規約とスタイルを反映しており、人間が作成したコードと ChatGPT によって生成されたコードとの明確な違いを示しています。特定の機能リストについては、表 3 を参照してください。

実験セットアップ:

  • 実験的な設定:
    この記事の実験的な設定には次の部分が含まれています。

(1). バイナリ分類実験: この実験は、C++ 言語と Java 言語に焦点を当て、ChatGPT によって生成されたコードと人間が作成したコードを区別するために語彙とレイアウト構造の特徴を使用する実現可能性を判断することを目的としています。パフォーマンスを評価するには、精度、適合率、再現率、F1 スコアなどの指標が使用され、アブレーション研究が実行されて各特徴セットの寄与が調査されます。

(2). 単語頻度分析実験: この実験では、ChatGPT と人間が作成した C++ および Java コードでの単語の使用の違いを視覚的および統計的に分析します。具体的には、コメント、文字列、識別子、キーワード、インポートされたパッケージ/ヘッダーの頻度を調査します。周波数を対比し、追加のコンテキストについて ChatGPT のドキュメントと関連研究を考慮すると、特定の変更の分析が得られます。

(3). 分析実験: この実験では、ChatGPT と、同じプログラミング問題を解決するときに人間が生成したコードとの間の意味論的な違いを研究します。意味論的特徴抽出の複雑さ、およびリソースと時間の制約のため、この実験は主に洞察を提供し、将来の研究にインスピレーションを与えるために使用されます。具体的には、ChatGPT に LeetCode の 100 問のアルゴリズム質問を提供し、難易度、合格率、強制性、正確性、時間と空間のパフォーマンスなどのさまざまな側面を評価しました。

(4). データセットの最適化: 高品質のデータセットを取得するために、この論文では時間と空間のセグメンテーション データセット クリーニング技術を採用し、オープン ソース コード ライブラリから純粋で高品質のコード データ セットを抽出します。さらに、「コード変換」、「特徴変換」、および「特徴カスタマイズ」技術を使用して、10,000 行の ChatGPT 生成コードを含む広範なデータセットを生成しました。

上記の実験設定を要約し、この論文では、バイナリ分類実験、単語頻度分析実験、分析実験を使用して、ChatGPT によって生成されたコードと手動で記述されたコードを区別し、データセット最適化手法を通じて高品質のデータセットを取得します。

実験結果:

  • 実験結果と分析:

(1). バイナリ分類実験: この実験は、C++ と Java に焦点を当て、字句およびレイアウト構造の特徴を使用して、ChatGPT によって生成されたコードと人間が作成したコードを区別することを目的としています。機械学習モデルで簡単に定量化できるため、特に語彙およびレイアウト構造の特徴を使用します。当社では、精度、適合率、再現率、F1 スコアなどの指標をパフォーマンス評価に使用し、アブレーション研究を実施して各機能セットの寄与を調査します。

(2). 単語頻度分析実験: この実験では、ChatGPT と人間が作成した C++ および Java コードでの単語の使用の違いを視覚的および統計的に分析します。具体的には、コメント、文字列、識別子、キーワード、インポートされたパッケージ/ヘッダーの頻度を調べました。頻度を対比し、追加のコンテキストについて ChatGPT のドキュメントと関連研究を検討し、特定の変化の分析を提供します。

(3). 分析実験: この実験では、ChatGPT と、同じプログラミング問題を解決するときに人間が生成したコードとの間の意味論的な違いを研究します。意味論的特徴抽出の複雑さ、およびリソースと時間の制約のため、この実験は主に洞察を提供し、将来の研究にインスピレーションを与えるために使用されます。具体的には、ChatGPT に LeetCode の 100 問のアルゴリズム質問を提供し、難易度、合格率、強制性、正確性、時間と空間のパフォーマンスなどのさまざまな側面を評価しました。

  • 実験結果と分析:

(1). バイナリ分類実験: 語彙とレイアウト構造の特徴を使用することで、ChatGPT によって生成されたコードと人間が作成したコードを区別することに成功しました。C++ および Java のバイナリ分類タスクでは、私たちの方法は、精度、精度、再現率、F1 スコアなどのメトリクスで高い精度を達成します。

(2). 単語頻度分析実験: ChatGPT で生成したコードと人間が書いたコードでは、コメント、文字列、識別子、キーワード、インポートされたパッケージ/ヘッダー ファイルの単語頻度が異なることがわかりました。比較分析を通じて、特定の変更について結論を導き出し、ChatGPT 文書および関連研究からのサポートを提供します。

(3). 分析実験: 同じプログラミング問題を解決するときに、ChatGPT によって生成されたコードと人間によって生成されたコードの間には意味的な違いがあることがわかりました。LeetCode アルゴリズムの問​​題 100 件の評価を通じて、ChatGPT によって生成されたコードは、難易度、合格率、強制可能性、正確性、時間と空間のパフォーマンスの点で人間が作成したコードとは異なることがわかりました。これにより、さらなる研究への洞察と示唆が得られます。

P:14 06-25 ニューラルシンボリック逆計画エンジン (NIPE): 言語入力からの確率的社会推論のモデリング

  • タイトル: 神経記号逆計画エンジン (NIPE): 言語入力からの確率的社会推論のモデリング

  • 著者: ランス・イン、キャサリン・M・コリンズ、ミーガン・ウェイ、セデガオ・E・チャン、タン・ジーシュアン、エイドリアン・ウェラー、ジョシュア・B・テネンバウム、ライオネル・ウォン

  • 所属:
    Lance Ying - ハーバード大学、ケンブリッジ、米国

  • キーワード: 神経記号モデル、目標推論、言語、ベイジアン逆計画、大規模言語モデル (LLM)

  • 論文:リンクGithub: なし

  • まとめ:

  • (1): この論文は、特に逆計画と目標推論の問題の文脈において、言語が社会的推論にどのように情報を与えることができるかを理解することに焦点を当てています。

  • (2): 以前の方法では、社会的推論タスクの複雑さと相互関連の性質により、社会的推論タスクをモデル化する際に課題に直面していました。この論文で提案されたアプローチは、大規模言語モデル (LLM) とベイジアン逆計画エンジンを組み合わせて、これらの課題に対処します。

  • (3): 提案されている神経記号逆計画エンジン (NIPE) は、LLM を利用して言語を、エージェントと環境に対する確率的生成モデルを条件付けるプログラム式に変換します。次に、ベイジアン逆計画を使用して、この記号表現に対して目標推論を実行します。革新は、言語理解と確率的計画の統合にあります。

  • (4): この論文の方法は、言語目標推論タスクに関する人体実験を通じて評価されます。結果は、提案されたモデルが人間の反応パターンと密接に一致し、人間の判断の予測において LLM ベースラインよりも優れていることを示しています。これは、言語入力から社会的推論を捕捉する際のモデルの有効性を示しています。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、目標推論のための言語入力から確率的社会推論をモデル化するためのニューラル シンボリック インバース プランニング エンジン (NIPE) を提案します。

b. 方法の詳細な手順:
(1). 計画エンジン (NIPE): ニューラル シンボリック逆計画エンジン (NIPE) が導入され、ベイジアン逆計画法に基づいて、エージェント シナリオの目標推論を実現します。このエンジンは言語記述をコード表現に変換し、目標推論にベイジアン逆プログラミングを使用します。

(2). 言語からコードへの変換: 大規模言語モデル (LLM) を使用して、言語記述をコード表現に変換します。この変換方法は、言語とコードに関する LLM の共同トレーニングを利用して、少数の例を使用して言語をコードと記号表現に変換します。翻訳の正確さと強制力を保証するために、翻訳結果に対して複数の文法解析可能性テストが実行されました。

(3). PDDL ベースの生成モデル: さまざまな種類の情報をさまざまな種類のコードに変換し、統一された生成モデルを構築します。このうち、空間環境の条件はLLMによって環境のレイアウトを記述するコードに変換され、ドメインルールの条件はPDDLの演算子定義によって記述されます。これらの条件を通じて、完全な PDDL 計画ドメイン モデルが構築されます。

(4). 言語からエージェントのサブ目標とアクションを推測する: エージェントのアクションを説明する文をエージェント モデルの条件に変換します。ステートメントに応じて、サブ目標または低レベルのアクション シーケンスの条件として考えてください。

(5). 実験検証: モデルの性能をテストするために人体実験が計画され、実施されました。結果は、このモデルが人間の目標を正確に推測し、LLM のみを使用したモデルよりも人間の判断をより正確に予測できることを示しています。

(6). モデルの利点: ニューラル ネットワークと記号推論手法を組み合わせることで、モデルは複雑な言語シナリオを処理できると同時に、オブジェクトの位置などの世界自体の抽象的な情報を条件付きでモデル化できます。そして扉を開けるための鍵の情報。

(7). モデルの適用: このモデルは言語駆動型の社会的推論タスクに適用でき、人間の社会的推論のための確率的モデリング方法を提供します。

(8). モデルの制限: この論文で使用されている LLM モデルは GPT-3.5 であり、将来の研究では、このフレームワークでのより小さく、より制限された言語対コード モデルの適用を検討することができます。

(9). 結論: 本論文で提案した Neural Symbolic Inverse Planning Engine (NIPE) は言語入力から対象を推論することができ、人間の判断と同等の性能を実験で実証した。このモデルは、言語駆動型の社会的推論タスクに効果的なモデリング方法を提供します。

実験セットアップ:

  • 実験設定:
    この論文の実験設定には主に次の側面が含まれます:
    (1). モデルの紹介: 大規模言語モデル (LLM) とベイジアン逆プログラミングで構成されるニューラル シンボリック逆プログラミング エンジン (NIPE) モデルが紹介されます。エンジンです。LLM は言語記述をコード表現に変換するために使用され、ベイジアン逆計画エンジンは目標推論に使用されます。
    (2). 言語からコードへの変換: LLM を使用して言語をコード表現に変換し、言語とコードを少数の例で組み合わせてトレーニングし、条件付きで生成します。
    (3). 確率的生成モデルの構築:言語からエージェントと環境の確率的生成モデルを構築し、言語を確率的プログラム表現に変換することにより、包括的な確率モデルを構築および条件付きで生成する。
    (4). ターゲット推論: ターゲット推論にはベイジアン逆計画法アルゴリズムが使用され、各可能なターゲットと観察されたアクション シーケンスの結合確率を計算することによって事後分布が取得されます。

以上が本論文の実験設定です。

実験結果:

実験結果と分析:
この論文では、人体実験を行うことにより、提案されたモデルをテストします。実験結果は、彼らのモデルが人間の反応パターンに一致し、大規模言語モデル (LLM) のみを使用するよりも人間の判断をより正確に予測できることを示しています。

具体的な実験結果は以下の通りです。

  1. 彼らのモデルは、言語からコードへの変換を通じて、言語記述をコード表現に変換し、エージェントと環境に基づいた確率的生成モデルを構築することができます。
  2. 彼らのモデルは、ベイジアン逆計画法アルゴリズムを通じて、エージェントのアクションと初期状態からターゲットの事後分布を推測することができます。
  3. 実験の結果、彼らのモデルは人間の目標を正確に推測でき、人間の反応パターンと一致することがわかりました。
  4. 彼らのモデルは、大規模な言語モデルのみを使用するよりも人間の判断を予測する際に優れたパフォーマンスを発揮しました。

要約すると、提案された Neural Symbolic Inverse Planning Engine (NIPE) モデルは、言語入力から目標推論を実行し、人体実験で有望な結果を達成します。このモデルは、大規模な言語モデルを単独で使用するよりも人間の目標を正確に推測し、人間の判断をより正確に予測することができました。

P:15 06-25 ROBUT: 人間の注釈を使用した敵対的摂動下での表形式質問応答の堅牢性に関する系統的研究

  • タイトル: ROBUT: 人間が注釈を付けた敵対的な摂動に対するテーブル QA の堅牢性に関する体系的な研究

  • 要約: この論文では、主要な質問エンティティの置き換えやテーブル列の順序のシャッフルなど、タスク固有の摂動に対するテーブル質問応答 (テーブル QA) モデルの堅牢性を体系的に研究します。テーブル QA モデルの堅牢性を体系的に研究するために、既存のテーブル QA データセット (WTQ、WIKISQL-WEAK、および SQA) に基づいて構築され、テーブル ヘッダー、テーブル コンテンツ、および質問。実験結果によると、現在の最先端のテーブル QA モデルと大規模言語モデル (GPT-3 など) は、これらの敵対的なデータセットではあまりパフォーマンスが良くありません。私たちは、敵対的な例を生成するために大規模な言語モデルを使用してトレーニングを強化し、それによってテーブル QA モデルの堅牢性を大幅に向上させることを提案します。

  • 著者: Yilun Zhao、Chen Zhao、Linyong Nan、Zhenting Qi、Wenlin Zhang、Boyu Mi、Xiangru Tang、Dragomir Radev

  • 所属:
    イェール大学

  • キーワード: テーブル QA、堅牢性、敵対的摂動、ベンチマーク、大規模言語モデル

  • Paper:論文へのリンク
    Github:コードへのリンク

  • 論文の要約:

  • (1): この論文は、タスク固有の摂動に対する表形式質問応答モデルの堅牢性の背景を調査します。

  • (2): 過去のアプローチの問題、既存のモデルは敵対的な摂動に対して脆弱です。私たちのアプローチは、インセンティブの点でうまく機能します。

  • (3): この論文では、大規模な言語モデルを使用して敵対的な例を生成し、モデルのトレーニングを強化しながら、テーブル QA の堅牢性を評価するためのベンチマークを構築する研究アプローチを提案します。このアプローチは革新的であり、貢献します。

  • (4): この論文では、ROBUT ベンチマークで最先端の Table QA モデルと大規模言語モデルを評価し、これらのモデルのパフォーマンスが敵対的データセットでは大幅に低下することを発見しました。大規模な言語モデルは、堅牢性の点で優れたパフォーマンスを発揮します。たとえば、GPT-3 は、単語レベルおよび文レベルの質問の摂動に関して、他のテーブル QA モデルよりも優れています。これらの結果は、この論文の目標と革新的な貢献を裏付けています。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この論文では、大規模な言語モデルを使用して敵対的な例を生成することにより、タスク固有の敵対的な摂動に対するテーブル質問応答 (テーブル QA) モデルの堅牢性を体系的に研究するための ROBUT と呼ばれるベンチマーク テスト セットを提案します。表形式の質問応答モデルの堅牢性が向上します。

b. 方法の詳細な手順:
(1). ROBUT ベンチマーク テスト セットの設計: 3 つの主流の表形式の質問応答データセット (WTQ、WIKISQL-WEAK、および SQA) に基づいて、手動のアノテーションを通じて、a と、テーブル上の摂動に対する ROBUT ベンチマークを構築します。問題の面。アノテーションの品質を確保するために、診断の包括性、語句の正確さと豊富さ、意味論的な関連性という 3 つのアノテーション原則が設計されています。
(2). 敵対的サンプルの構築: 大規模な言語モデル (GPT-3 など) を使用して敵対的サンプルを生成し、トレーニングを強化します。表形式の質問応答モデルの堅牢性は、人間が注釈を付けた敵対的摂動を使用することで大幅に向上します。

以上が本稿での手法の詳細な紹介である。

実験セットアップ:

  • 実験設定:
    この論文の実験設定は主に、著者が構築したベンチマーク テスト セット ROBUT 上で既存の Table QA モデルを評価することです。ROBUT は、既存の表形式の質問応答データセット (WTQ、WIKISQL-WEAK、および SQA) に基づいており、テーブル ヘッダー、テーブルの内容、質問の摂動など、人間が注釈を付けた敵対的な摂動が組み込まれています。著者らは、最先端の表形式質問応答モデルと、GPT-3 などの少数ショット学習用の大規模言語モデルのパフォーマンスを、これらの敵対的セット上で評価しています。さらに、著者らは、大規模な言語モデルを使用してトレーニングを強化して敵対的な例を生成し、それによって表形式の質問応答モデルの堅牢性を大幅に向上させることを提案しています。

実験結果:

実験結果と分析:
この論文では、構築されたベンチマーク テスト セット ROBUT で既存の Table QA モデルを評価します。実験結果は、最先端の Table QA モデルも大規模言語モデル (GPT-3 など) も、敵対的なデータセットではうまく機能しないことを示しています。著者らは、大規模な言語モデルを使用して敵対的サンプルを生成し、トレーニングを強化し、それによって Table QA モデルの堅牢性を大幅に向上させることを提案しています。

具体的な実験結果は次のとおりです。
(1) ROBUT ベンチマーク テスト セットでは、既存のテーブル QA モデルと大規模な言語モデルは、敵対的設定ではパフォーマンスが低下します。
(2) 大規模な言語モデルを使用して敵対的なサンプルを生成するという著者の方法は、テーブル QA モデルの堅牢性を大幅に向上させることができます。

上記の実験結果を要約して、この論文では、敵対的なデータセットで既存の Table QA モデルを評価し、タスク固有の摂動に直面するとパフォーマンスが低下することを発見しました。著者らは、拡張トレーニングを通じてテーブル QA モデルの堅牢性を向上させるために、大規模な言語モデルを使用して敵対的サンプルを生成する方法を提案しています。これらの実験結果は、Table QA モデルの堅牢性を向上させるための重要な指針となります。

P:16 06-25 低リソース言語向けの弱く教師ありのシーンテキスト生成

    1. タイトル: 低リソース言語向けの弱く教師ありのシーン テキスト生成
  • 要約: この論文は、認識レベルのアノテーションを使用して大規模なシーン テキスト画像データセットを生成する、低リソース言語向けの弱教師付きシーン テキスト生成方法を提案します。一方、低リソース言語のラベル付きデータへの依存を減らすために、言語間生成スキームが導入されています。

    1. 著者: Yangchen Xie、Xinyuan Chen、Hongjian Zhan、Palaiahankote Shivakumara、Bing ying、Cong Liu、Yue Lu
    1. 所属:
    • 第一作者: School of Communication and Electronic Engineering, East China Normal University, Shanghai, 200241, China
    1. キーワード: シーンテキスト生成、スタイル転送、低リソース言語
    1. 論文:リンクGithub: なし
    1. 論文の要約:
    • (1): この論文の研究背景は、低リソース言語におけるシーンテキスト生成の問題です。
    • (2): これまでの手法では、大量のペア データに依存することが多く、低リソース言語では取得が困難でした。私たちの方法では、認識レベルの注釈を弱い監視として利用し、言語を超えた生成を通じて、さまざまな背景とフォントスタイルを持つ多数のシーンテキスト画像を生成します。このアプローチでは、アテンション モジュールを統合することで、シーン テキスト画像のコンテンツとスタイルの特徴を分離し、生成された画像の完全なコンテンツ構造を保存できます。
    • (3): この論文は、認識レベルのアノテーションを利用して低リソース言語で大規模なシーン テキスト データセットを生成する、弱教師ありシーン テキスト生成方法を提案します。アテンション モジュールを統合することにより、コンテンツの特徴と生成的な特徴の間のグローバルおよびローカルの関係が活用されます。さらに、異なる言語間の文体の違いを処理するために、事前トレーニングされたフォント分類子が導入されています。
    • (4): 本論文の手法はシーンテキスト認識モデル上で評価されており、生成されたシーンテキストは認識精度を大幅に向上させ、他の生成手法と組み合わせることでより高い精度を達成できることが実験により証明されている。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この論文では、低リソース言語でのシーン テキスト生成のための認識レベルのアノテーションを使用した弱教師あり生成方法を提案し、アノテーション データの依存関係の必要性を減らすための言語間生成スキームを導入します。 。

b. 方法の詳細な手順:
(1). 生成フレームワークは、合成注意を使用して、コンテンツ特徴と生成特徴の間のグローバルおよびローカルの関係を活用するように設計されています。

(2). 弱い監視として認識レベルのラベルを使用するシーンテキスト生成のための方法を提案する。生成モデルは、コンテンツ エンコーダー、スタイル エンコーダー、デコーダー、および統合されたアテンション モジュールで構成されます。

(3). シーン画像からトリミングされたスタイル画像を弱い監視として利用し、標準フォントを使用して灰色の背景にレンダリングし、指定されたコンテンツ文字列を含む画像を生成します。

(4). コンテンツ エンコーダとスタイル エンコーダに基づいて、潜在的なスタイルとコンテンツ表現を抽出します。スタイル ベクトルは、完全に接続された複数のレイヤーを介して AdaIN 正規化係数にマッピングされます。

(5). ジェネレーターは、これら 2 つの表現を混合して、完全なコンテンツ構造を持つ画像を生成することにより、編集されたシーンのテキスト画像特徴を生成します。

(6). シーンのテキスト画像と生成された画像の間でスタイルと信頼性を区別するために、合成フォントで事前にトレーニングされたフォント分類子と弁別子が導入されます。

(7). 弱い監視方法は、低リソース言語シーンのテキスト生成のラベル付けコストを削減しますが、生成された画像のコンテンツの一部が欠落する傾向があります。

(8). 合成アテンション モジュールは、グローバル レベルとローカル レベルの両方で生成されたコンテンツを確実に補完するように設計されています。グローバル アテンションは、変形可能な畳み込みをモデル化することによってポイントツーポイントの変形を学習し、グローバルなスパースの重みを学習することによってソース コンテンツの特徴を変形します。ローカル アテンションは、ローカル デンス アテンション ウェイトを学習することによって、ソース コンテンツ フィーチャとターゲット生成フィーチャの間のローカル ストローク マッピングを学習します。

(9). 高レベルの特徴の場合、コンテンツ特徴の変形を支援するために、最初にグローバル アテンションが使用されます。次に、ローカル アテンション モジュールを使用して、ストロークやラジカルの分解など、コンテンツ画像と生成された画像の間のローカル空間マッピングを学習します。

(10). 低レベルの特徴の場合、高密度に接続されたグローバル アテンション モジュールが特徴をワープするために使用されます。グローバル アテンションは、学習可能なオフセットを介して主要な要素のサンプリング位置を調整し、グローバルな空間関係をキャプチャします。

(11). ローカル アテンション モジュールは、入力フィーチャ全体ではなく隣接フィーチャの位置に関連して重みを予測するという点で、従来のトランスフォーマー アテンションとは異なります。ローカル空間アテンション モジュールの出力は、完全に接続されたネットワークを使用してパッチを抽出し、重みを推定することによって学習されます。

(12). 合成アテンション モジュールは、グローバルおよびローカルの関係を学習することで、生成されたコンテンツがグローバルおよびローカル レベルでソース コンテンツを補完することを保証します。

(13). 画像が生成ネットワークによって生成された後、シーンのテキスト画像と生成された画像の間のスタイルと信頼性を区別するために、合成フォントで事前にトレーニングされたフォント分類子と弁別子が導入されます。

(14). 提案手法では、シーンテキスト認識器の学習用に低リソース言語の大規模シーンテキストデータセットが生成され、認識器のパフォーマンスが大幅に向上します。

(15). この論文で提案した方法は、低リソース言語でのシーンテキスト生成におけるアノテーションコストを削減し、包括的なアテンションモジュールを通じて生成されたコンテンツの補完を保証します。

実験セットアップ:

  • 実験設定:
    この論文では、韓国語とカザフ語のシーンテキスト認識タスクに関して提案されたモデルを評価します。最初に実装の詳細が説明され、次にデータセットが紹介されます。次に、モデルの利点を検証するための実験結果を示します。畳み込み層の重みは、バイアスを 0 に設定した He [13] を使用して初期化され、線形層の重みは、平均 0、標準偏差 0.01 のガウス分布からサンプリングされます。最適化には Adam オプティマイザーが使用されます。スタイル エンコーダーのパラメーターは 1=0.9 および 2=0.99 で、コンテンツ エンコーダーとデコーダーは RMSprop オプティマイザーを使用して最適化され、パラメーターは =0.99 です。モデルは、学習率 0.0001、重み減衰 0.0001 で 200 エポックにわたってトレーニングされます。R1 正則化でヒンジ敵対的損失 [44] を使用します (= 10)。さまざまなハイパーパラメータの重みは、1=1、2=250、3=1、=1、=10、1=1、1=0.1 のように経験的に設定されます。生成モデルのバッチ サイズは 16 に設定され、テキスト イメージの高さは同じアスペクト比を維持したまま 64 にサイズ変更されます。トレーニング中はデータのバッチがランダムに選択され、これらの画像は平均的な幅にサイズ変更されます。テスト中は、望ましい結果を達成するために可変幅の画像が入力されます。合成アテンションでは、ℎ ℎ と ℎ ℎ は 2 番目のダウンサンプリング層と最後から 2 番目のアップサンプリング層から抽出され、ℎ と ℎ は最初のダウンサンプリング層と最後のアップサンプリング層から抽出されます。表 1 は、エンコーダとデコーダのコンポーネントを含む生成ネットワークの詳細を示しています。BN、IN、AdaIN はそれぞれバッチ正規化、インスタンス正規化、適応インスタンス正規化を示します。FC は全結合層の略です。私たちの方法を評価するために、3 つの認識方法を使用します。バッチ サイズは 256 で、特に明記されていない限り、どのメソッドもデータ拡張でトレーニングされませんでした。低リソース言語でのモデルのシーン テキスト認識能力を評価するために、モデルのトレーニングに役立つ低リソース言語としてカザフ語 (84 文字) と韓国語 (2180 文字) を選択し、高リソース言語として英語と中国語を選択します。カザフ語については、トレーニング用に 22,182 枚のカザフ語画像と 81,900 枚の英語画像、およびテスト用に 4571 枚のカザフ語画像を含むデータセットを収集しました。韓国語の場合、トレーニング セットには合計 16,279 個の韓国語画像と 113 個の韓国語画像が含まれています。491 枚の中国語画像、テスト セットには ICDAR2019-MLT [28] から切り取られた 4644 枚の韓国語画像が含まれています。私たちの実験では、すべてのトレーニング画像とテスト画像は、実際のシーン画像から切り取られたボックス画像です。さらに、フォント分類子のトレーニング セットは SynthText によって生成され、284 個の中国語フォントと 800 個の英語フォントが使用されます。

(1). 実験設定:

  • 韓国語とカザフ語のシーンテキスト認識タスクに対する提案されたモデルの有効性が評価されます。
  • 重みの初期化、オプティマイザの選択、ハイパーパラメータ設定など、モデルの実装の詳細が説明されています。
  • 低リソース言語と高リソース言語を含む、トレーニングとテスト用のデータセットが表示されます。
  • 評価には、評価指標とデータ拡張の使用を含む 3 つの識別方法が使用されました。
  • フォント分類子のトレーニング セットは、SynthText を使用して生成されました。

(2). データセット (データセット):

  • 韓国語データセットには 16,279 個の韓国語画像と 113,491 個の中国語画像が含まれており、テスト セットには 4644 個の韓国語画像が含まれています。
  • カザフ語データセットには 22,182 枚のカザフ語画像と 81,900 枚の英語画像が含まれており、テスト セットには 4571 枚のカザフ語画像が含まれています。
  • すべてのトレーニング画像とテスト画像は、実際のシーン画像から切り取られたボックス画像です。
  • フォント分類子のトレーニング セットでは、284 個の中国語フォントと 800 個の英語フォントが使用されます。

(3). モデルのトレーニング:

  • Adam オプティマイザーはモデルのトレーニングに使用されます。スタイル エンコーダーのパラメーターは 1=0.9 および 2=0.99 で、コンテンツ エンコーダーとデコーダーは RMSprop オプティマイザーを使用して最適化され、パラメーターは =0.99 です。
  • モデルは、学習率 0.0001、重み減衰 0.0001 で 200 エポックにわたってトレーニングされます。
  • R1 正則化でヒンジ敵対的損失を使用してトレーニングされました。ここで = 10。
  • 1=1、2=250、3=1、=1、=10、1=1、1=0.1 など、さまざまなハイパーパラメータの重みが設定されます。

(4). 生成モデル:

  • 生成モデルのバッチ サイズは 16 に設定され、テキスト イメージの高さは同じアスペクト比を維持したまま 64 にサイズ変更されます。
  • トレーニング中はデータのバッチがランダムに選択され、これらの画像は平均的な幅にサイズ変更されます。テスト中は、望ましい結果を達成するために可変幅の画像が入力されます。
  • 合成アテンションでは、ℎ ℎ と ℎ ℎ は 2 番目のダウンサンプリング層と最後から 2 番目のアップサンプリング層から抽出され、ℎ と ℎ は最初のダウンサンプリング層と最後のアップサンプリング層から抽出されます。

(5). 評価方法:

  • 評価はバッチ サイズ 256 の 3 つの認識方法を使用して実行され、トレーニングにはデータ拡張は使用されませんでした。
  • 評価指標には、画像生成タスクに一般的に使用される FID スコアの代わりに、精度と正規化された編集距離が含まれます。
  • 標準化された編集距離を計算する式は次のとおりです。 = 1 − ( ,̂)。ここで (:) はレーベンシュタイン距離を表し、̂ は予測されたテキスト行を表し、対応する実際のテキスト行を表します。

実験結果:

実験結果と分析:
この論文では、低リソース言語向けの弱教師付きシーンテキスト生成方法を提案し、ラベル付きデータへの依存を減らすためのクロスリンガル生成スキームを導入します。著者らは、アンサンブル アテンションを使用して、コンテンツ特徴と生成特徴の間のグローバルおよびローカルの関係を活用する生成フレームワークを設計します。提案された方法を使用して、著者らは、シーン テキスト認識器をトレーニングするための大規模で低リソースの言語シーン テキスト データセットを生成します。実験結果は、この方法により認識装置のパフォーマンスが大幅に向上することを示しています。

著者らは、韓国語とカザフ語のシーンテキスト認識タスクで提案したモデルのパフォーマンスを実験で評価しました。実験結果により、モデルの利点が検証されました。実験では、トレーニングに Adam オプティマイザーが使用され、学習率は 0.0001、重み減衰は 0.0001 でした。生成モデルのバッチ サイズは 16 で、テキスト イメージの高さは同じアスペクト比を保ったまま 64 にサイズ変更されます。アンサンブル アテンションも実験で使用され、2 番目のダウンサンプリング層と最後から 2 番目のアップサンプリング層から特徴を抽出します。評価実験では 3 つの認識方法を使用し、バッチサイズは 256 です。実験では、カザフ語と韓国語が低リソース言語として選択され、英語と中国語が高リソース言語として選択されました。実験結果は、合成データを使用して認識モデルをトレーニングすることにより、モデルの精度を向上できることを示しています。

要約すると、この論文で提案した弱教師ありシーンテキスト生成方法は、低リソース言語でのシーンテキスト認識タスクのパフォーマンスを大幅に向上させます。

P:17 06-25 大規模言語モデルを使用してサイバー脅威検出に革命を起こす

  • タイトル: 大規模言語モデルによるサイバー脅威検出の革命

  • 要約: この文書では、大規模言語モデル (LLM) に基づくネットワーク脅威検出方法を紹介し、2 つの主要な要素、SecurityBERT と FalconLLM を導入して SecurityLLM モデルを構築します。実験結果によると、このモデルはネットワーク脅威検出において 14 種類の攻撃を識別でき、全体の精度率は 98% です。

  • 著者: モハメド・アミン・フェラグ、ムタンダゾ・ンドロブ、ノルベルト・ティハニー、ルーカス・C・コルデイロ、メルアン・デバー、ティエリー・レスタブル

  • 所属: Technology Innovation Institute、9639 Masdar City、Abu Dhabi、UAE

  • キーワード: セキュリティ、攻撃検出、生成 AI、FalconLLM、BERT、大規模言語モデル

  • 論文:論文へのリンクGithub: なし

  • 論文の要約:

  • (1): この論文の研究背景は、ネットワークの脅威が日々増大しており、高度で効果的な検出メカニズムが必要であるということです。

  • (2): ネットワーク脅威の検出における従来の機械学習および深層学習手法のパフォーマンスが不十分であるなど、これまでの手法にはいくつかの問題がありました。私たちの方法は、大規模な言語モデルを導入することでこれらの問題を克服し、優れたパフォーマンスを実現します。

  • (3): この論文は、LLM モデルを使用してネットワーク トラフィック データをテキストで表現し、インシデント対応と復旧に FalconLLM を組み合わせた、新しいネットワーク脅威検出方法を提案します。このアプローチは革新的であり、サイバー脅威検出の分野に貢献します。

  • (4): この論文の方法は、収集されたネットワーク セキュリティ データセットに対して実験的な分析を実行します。その結果、SecurityLLM モデルは 98% の全体的な精度で 14 種類の攻撃を識別できることが示されています。この実績は彼らの目標を裏付け、革新性と貢献を示しています。

メソッドセクション:

方法の詳細な紹介:
a. 一文による概要: この文書では、SecurityBERT と FalconLLM という 2 つの重要な要素を含む、大規模な言語モデルに基づくネットワーク脅威検出方法を紹介します。

b. 方法の詳細な手順:
(1). SecurityBERT モデル
- ネットワーク セキュリティ データの収集: CVE データベース、OWASP などのさまざまなオープン ソース データベースおよびリポジトリからネットワーク セキュリティ データを収集します。
- 関連する機能の抽出: ネットワーク トラフィック ログから特定の時間枠内の関連する機能を抽出し、構造化された形式で保存します。
- テキスト表現: データをテキスト表現に変換し、列名と対応する値を結合およびハッシュすることによって、固定長言語エンコーディング (FLLE) と呼ばれる固定長シーケンスを生成します。
- バイトレベル BPE (BBPE) トークナイザー: ByteLevelBPETokenizer はテキストのセグメント化に使用され、ネットワーク トラフィック データの言語表現は BERT 処理のためにサブワード単位に分割されます。
- SecurityBERT 埋め込み: BERT アーキテクチャを使用してテキストをエンコードし、セルフアテンション メカニズムを実現し、多層エンコーダー層を通じてフィードフォワード ニューラル ネットワークを配置し、コンテキスト表現の埋め込みベクトルを生成します。

(2). FalconLLM モデル
- セキュリティ ポリシーの設計: アップロード攻撃やポート スキャン攻撃に対して、ソフトウェアやセキュリティ パッチの定期的な更新、未使用のポート アクセスの制限、ネットワーク アクティビティの監視など、対応するセキュリティ ポリシーを設計します。
- 異常検出: ネットワークアクティビティを監視することにより、疑わしいアップロードされたファイルとポートスキャン動作を検出および特定します。
- セキュリティへの対応と回復: 検出されたセキュリティ脅威に対応して回復し、対応する措置を講じて防止および修復します。

要約すると、この論文は大規模言語モデルに基づいたネットワーク脅威検出方法を提案します. SecurityBERT モデルはネットワーク脅威検出に使用され、セキュリティ対応と回復のための FalconLLM モデルと組み合わせて、正確な識別と効率的な処理を行います。ネットワークの脅威が現実になります。

  • 手法の詳細な紹介:
    この論文では、SecurityLLM と呼ばれる大規模言語モデルベースのネットワーク脅威検出手法を提案します。このアプローチは、SecurityBERT と FalconLLM という 2 つの主要コンポーネントで構成されます。SecurityBERT は、ネットワーク脅威検出メカニズムとして、事前トレーニングされた BERT モデルを利用してテキストをエンコードし、分類します。FalconLLM は、インシデント対応および復旧システムとして、大規模な言語モデルを利用してサイバー脅威を分析し、ソリューションを提供します。SecurityLLM は、これら 2 つのコンポーネントを組み合わせることで、サイバー脅威に対する正確な検出と迅速な対応を実現します。

  • 実験設定:
    実験では、研究者は、一般的な脆弱性や脅威のデータベースを含む、さまざまなオープンソース データベースおよびリポジトリからサイバーセキュリティ データを収集しました。彼らはまた、14 種類の異なる攻撃を含む IoT および産業用 IoT 接続プロトコルの公開されているデータセットを使用しました。実験では 661,767,168 個のラベル付きトレーニング データを使用し、それらをトレーニング データと評価データに分割します。トレーニング データは SecurityLLM モデルのトレーニングに使用され、評価データはモデルのパフォーマンスの評価に使用されます。

  • 実験結果と分析:
    SecurityLLM モデルは、さまざまなサイバー攻撃カテゴリに対して優れたパフォーマンスを発揮します。「Normal」クラスと、「DDoS_UDP」、「DDoS_ICMP」、「DDoS_TCP」などのほとんどの DDoS 攻撃タイプについて、このモデルは精度、再現率、F1 スコアの点で完璧なスコアを達成しています。「SQLインジェクション」、「パスワード攻撃」、「DDoS_HTTP」、「アップロード攻撃」、「バックドア攻撃」などの他の攻撃タイプにおいても、高いパフォーマンスを実現しました。全体として、SecurityLLM モデルは 14 種類の攻撃の検出において 98% の精度を達成しました。

  • 結論:
    本稿で提案する SecurityLLM モデルは、SecurityBERT と FalconLLM を組み合わせることで、サイバー脅威の正確な検出と迅速な対応を実現します。実験結果は、SecurityLLM モデルがネットワーク脅威検出において優れたパフォーマンスを示し、従来の機械学習や深層学習手法を上回っていることを示しています。このモデルは、ネットワーク セキュリティを向上させ、潜在的な損害を軽減するのに役立つ現実世界のアプリケーションに幅広い可能性を秘めています。今後の研究の方向性では、進化するサイバー脅威に対処するために SecurityLLM モデルをさらに調査および最適化することができます。

P:18 06-25 データベース スキーマ プルーニングによるセルフアテンション多言語 SQL トランスレータの改善

  • タイトル: 自己注意力を向上させるデータベース スキーマ プルーニングを使用した SQL への多言語トランスレーター

  • 簡単な紹介: この文書では、自然言語から SQL への変換のためのトランスフォーマーで長いテキスト シーケンスを処理する手法を紹介します。提案されたアプローチには、データベース スキーマのプルーニングと、mT5-large モデルを使用した多言語アプローチが含まれています。結果は、Spider データセットの精度が向上していることを示しています。

  • 著者: マルセロ・アルチャンホ・ホセ、ファビオ・ガリアルディ・コズマン

  • 所属:
    Marcelo Archanjo Jose: ブラジル、サンパウロ大学高等研究所

  • キーワード: セマンティック解析、SQL 生成、深層学習、ニューラル ネットワーク、自然言語プロセス、テキストから SQL への変換、データベース、トランスフォーマー セルフ アテンション、トランスフォーマー、Spider データセット

  • 論文:リンク
    Github:リンク

  • まとめ:

    • (1): この論文の研究背景は、長いテキスト シーケンスを処理する際のトランスフォーマーの制限であり、これは自然言語から SQL クエリへの変換に影響します。
    • (2): NL2SQL 変換の以前の方法には、大規模なデータベース スキーマと長い入力シーケンスの処理に制限がありました。提案されたアプローチは、データベース スキーマのプルーニングと多言語アプローチを使用してこれらの問題に対処します。このアプローチの動機は、スキーマ プルーニングの利点と、英語とポルトガル語の組み合わせを使用した以前の作業で観察された結果の改善です。
    • (3): この論文で提案されている研究方法論には、データベース スキーマの枝刈りによるトレーニング プロセスと、データ拡張された Spider データセットで微調整された mT5 ラージ モデルの使用が 4 つの言語で同時に含まれています。この革新性は、スキーマ プルーニングと多言語トレーニングの組み合わせにあり、これにより長いテキスト シーケンスをトランスフォーマーで処理できるようになります。
    • (4): この論文の方法は Spider データセットで評価されており、その結果は、検証データセットにおける正確なセット一致精度が 0.718 から 0.736 に増加していることを示しています。このパフォーマンスは、NL2SQL タスクの変換精度を向上させるという目標をサポートしており、その革新性はスキーマ プルーニングと多言語トレーニングの組み合わせにあります。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この論文では、自然言語から SQL クエリへの翻訳精度を向上させるために、データベース スキーマのプルーニングと多言語トレーニングを通じて、長いテキスト シーケンスに対する改善されたセルフ アテンション メカニズムを提案します。

b. 方法の詳細な手順:
(1). まず、ベンチマークとして RAT-SQL+GAP の結果を再現し、微調整に BART-large モデルを使用し、英語のトレーニングおよび検証データセットでトレーニングします。ベースライン モデルの精度は実験によって検証されます。

(2). 次に、mT5 モデルを使用して、Spider データセットに対して英語、ポルトガル語、スペイン語、フランス語の 4 つの言語で多言語トレーニングを実行します。データを増やすことでモデルの精度が向上します。

(3). データベース スキーマ プルーニングの影響がさらに研究され、標準の 4 言語 Spider データセットとプルーニングされた 4 言語 Spider データセットを使用して mT5 モデルがトレーニングされました。結果は、プルーニングされたデータセットによってモデルの精度が向上する可能性があることを示しています。

(4). すべてのテキスト シーケンスを含めるために、セルフ アテンション メカニズムのトークンの最大数を増やすようにしてください。ただし、メモリ消費量の制約により、バッチ サイズを削減し、トレーニング ステップの数を増やす必要があります。この結果は、マーカーの数を増やしてもモデルの精度が必ずしも向上するとは限らないことを示しています。

(5). 最後に、問題とデータベース スキーマを分析することにより、512 トークンの制限に適合する推論時のデータベース スキーマ プルーニングの方法が提案されます。

(6). 要約すると、この論文で提案した方法は、データベース スキーマの枝刈りと多言語トレーニングを通じてセルフ アテンション メカニズムを改善することにより、自然言語から SQL クエリへの変換精度を向上させます。

実験セットアップ:

  • 実験設定:
    この論文の実験設定には主に次の側面が含まれます:
    (1). mT5-large モデルを使用したトレーニング: 著者は mT5-large モデルを基本モデルとして使用し、それを微調整します。トレーニング中には、4 つの言語 (英語、ポルトガル語、スペイン語、フランス語) でデータ拡張された Spider データセットが使用されました。
    (2). データベース アーキテクチャ プルーニング: トランスフォーマー モデルにおける長いテキスト シーケンスの課題を解決するために、著者はデータベース アーキテクチャ プルーニングの技術を提案します。クエリに役に立たないテーブル名と列名を削除すると、入力シーケンスの長さが短縮され、モデルのパフォーマンスが向上します。
    (3). 異なるトレーニング ステップ数の比較: 著者は、異なるステップ数でモデルをトレーニングし、検証データ セットでのパフォーマンスを比較しました。結果は、トレーニング ステップの数を増やすとモデルのパフォーマンスが向上する可能性があることを示しています。
    (4). セルフ アテンション メカニズムの最大ラベル数を増やす: 完全なトレーニング データ セットを使用するために、作成者はセルフ アテンション メカニズムの最大ラベル数を 512 から 2048 に増やしました。ただし、メモリ消費量の制約により、良好な収束を達成するには、バッチ サイズを 1 に減らし、トレーニング ステップの数を増やす必要がありました。
    (5). データセットの影響: 著者は、標準データセットと枝刈りデータセットを使用したトレーニングの結果を比較します。結果は、プルーニングされたデータセットによってモデルのパフォーマンスが向上する可能性があることを示しています。
    (6). モデル推論時のスキーマ プルーニング: 著者は、推論時のスキーマ プルーニングの可能性について議論し、未使用のテーブルと列を選択するためのクエリおよびデータベース スキーマ ベースのアプローチを提案します。

実験結果:

実験結果と分析:
この論文では、データベース スキーマ プルーニングを使用してセルフ アテンション メカニズムを改善する多言語 SQL トランスレーターを実験的に研究します。実験結果は、検証データセット上の FIT クワッド データベースでトレーニングされた mT5 モデルの正確なマッチング精度が 0.718 から 0.736 に増加することを示しています。さらに、トランスフォーマー セルフ アテンション メカニズムのラベルの最大数を 512 から 2048 に増やしても、精度は 0.697 となり、良好な結果は得られません。これは、標準のクワッド トレーニング データセットを使用した精度 0.718 よりも低くなります。実験では、FIT クワッド トレーニング データセットを使用した mT5 モデルが、さまざまな難易度の質問/クエリの例で優れたパフォーマンスを示したこともわかりました。さらに、実験では推論時のスキーマ プルーニングの実現可能性を調査し、問題とデータベース スキーマを分析して未使用のテーブルと列を選択する方法を提案します。

実験結果と分析:
(1) 検証データセット上の FIT クワッド データベースでトレーニングされた mT5 モデルの正確なマッチング精度は、0.718 から 0.736 に増加しました。
(2) トランスフォーマー セルフ アテンション メカニズムのマーカーの最大数を 512 から 2048 に増やしても、精度率は 0.697 となり、良好な結果は得られません。これは、標準のクワッド トレーニング データセットを使用した精度率 0.718 よりも低くなります。
(3) FIT クワッド トレーニング データセットを使用した mT5 モデルは、さまざまな難易度の質問/クエリの例で優れたパフォーマンスを示します。
(4) 実験では、推論時のスキーマ枝刈りの実現可能性を調査し、問題とデータベース スキーマを分析して未使用のテーブルと列を選択する方法を提案します。

P:19 06-25 構造と特性の関係の学習を支援するためのグラフ ニューラル ネットワークと GPT モデルの使用: 希土類ドープ蛍光体の応用

  • タイトル: グラフ ニューラル ネットワークによる構造と特性の関係の GPT 支援学習: 希土類ドープ蛍光体への応用

  • 要約: この論文では、グラフ ニューラル ネットワークと GPT モデルを組み合わせて、希土類ドープ蛍光体の構造と特性の関係を研究する方法を紹介します。

  • 著者: Xiang Zhang、Zichun Zhou、Chen Ming、Yi-Yang Sun

  • 所属:
    中国科学院、上海陶磁器研究所、高性能セラミックスおよび超微細構造の国家重点研究所

  • キーワード: 機械学習、グラフ ニューラル ネットワーク、GPT、希土類ドープ蛍光体

  • 論文:論文へのリンクGithub: なし

  • 論文の要約:

  • (1): この論文の研究背景は、固体照明における希土類ドープ蛍光体の応用です。

  • (2): 過去の方法は主に経験的記述子と特定の材料特性データベースに基づいており、依存性と制限があります。私たちのアプローチは、GPT モデルと CGCNN モデルを組み合わせることにより、材料構造から性能への直接マッピングを実現し、経験的記述子の使用の問題を回避します。

  • (3): この論文では、GPT モデルを使用して科学文献から希土類ドープ蛍光体の化学式と発光波長データを抽出し、トレーニングと予測に CGCNN モデルを使用するデータ処理パイプラインを提案します。一方、CGCNN モデルをバンドギャップの予測から蛍光体の発光波長の予測まで拡張するための転移学習の可能性も検討されています。

  • (4): この論文の方法は、264 個の Eu2+ ドープ蛍光体のデータセットでトレーニングされ、テスト R2 は 0.77 に達しました。このモデルは、40,000 を超える無機材料の発光波長の予測も行いました。結果は、この方法が人間の監督や専門分野の知識をあまり必要としないだけでなく、他の材料特性の予測において一般的な適用性と拡張性を備えていることを示しています。

  • 方法の詳細な紹介:
    この研究では、GPT-4 と CGCNN を組み合わせたデータ フローを使用します。まず、GPT-4 を使用して、化学組成や発光波長などの Eu2± ドープ蛍光体に関する情報を科学論文から抽出しました。次に、抽出されたデータセットを CGCNN モデルを使用してトレーニングし、発光波長を予測しました。トレーニング中、ICSD データベースの結晶構造が入力として使用され、発光波長が教師あり回帰のラベルとして使用されました。最後に、テスト セット上で R2 値が 0.77、MAE 値が 0.20 eV のモデルが得られました。

  • 実験設定:
    実験設定では、Eu2±ドープ蛍光体に関する 274 件の論文をデータセットとして使用しました。これらには、11 件の総説論文と 263 件の非総説論文が含まれています。これらの論文をテキスト形式に変換し、GPT-4 を使用してテキストを解析し、化学組成と発光波長に関する情報を抽出しました。次に、抽出したデータに基づいて CGCNN モデルをトレーニングし、発光波長を予測しました。トレーニング セット、検証セット、テスト セットの分割率はそれぞれ 60%、20%、20% です。

  • 実験結果と分析:
    CGCNN モデルは、テスト セットで優れた予測能力を示し、R2 値は 0.77、MAE 値は 0.20 eV でした。このモデルを使用して、ICSD データベース内の 40,000 を超える無機化合物の発光波長を予測したところ、5,289 件の信頼できる予測結果が得られました。UMAP 法を使用して化学組成の次元削減と可視化を実行することにより、同様の化学組成を持つ材料は同様の発光波長を持つ傾向があることがわかりました。さらに、事前学習済み CGCNN モデルをバンドギャップの予測から蛍光体の発光エネルギーの予測に移行するための転移学習の概念も検討し、この転移学習がモデルの予測能力を向上できることを発見しました。

要約すると、この研究は、GPT-4 および CGCNN モデルを使用して Eu2± ドープ蛍光体の発光波長を予測するためのデータ パイプラインの開発に成功しました。この方法は実験環境で良好なパフォーマンスを示し、他の材料特性の予測にも拡張できます。

P:20 06-25 感情の可能性を明らかにする: 大規模言語モデルは中国の株価動向を予測できるか?

  • タイトル: センチメントの可能性を明らかにする: 大規模言語モデルは中国の株価の動きを予測できるか?

  • 要約: この研究は、中国のニューステキストからセンチメント要因を抽出する際の大規模言語モデル (LLM) の有効性を評価し、中国の株式市場での応用の可能性を探ることを目的としています。

  • 著者: Haohan Zhang、Fengrui Hua、Chengjin Xu、Jian Guo、Hao Kong、Ruiting Zuo

  • 所属:国際デジタル経済アカデミー(IDEA)(国際デジタル経済アカデミー)

  • キーワード: 大規模言語モデル、感情分析、中国株式市場、定量的取引戦略

  • 論文:論文へのリンクGithub: なし

  • 論文の要約:

  • (1): 本論文の研究背景は、日々大量のニュース記事やコラム、特に上場企業関連の記事が作成されているということである。したがって、研究者たちは、これらのニューステキストのセンチメント分析と処理に大規模言語モデル (LLM) を使用する実現可能性を調査することに着手しました。

  • (2): 過去の手法により、LLM が感情的要因を抽出するのに有効であることが実証されていますが、中国の環境にはまだいくつかの問題があります。まず、主流の LLM は主に英語のコーパスでトレーニングされているため、感情マイニング技術を英語のテキストから中国語のテキストに移行する実現可能性についてはまだ不確実性があります。第二に、調査結果の矛盾は、株式取引シミュレーションのバックテストを構築するためのパラメーターの選択と、異なるオリジナルのニュース データセットの使用によって引き起こされます。

  • (3): この論文は、センチメント抽出と定量化戦略の実践的なバックテストを組み合わせた革新的なアプローチを提案します。包括的なベンチマークとバックテストの実験手順を使用することで、感情要因の抽出における LLM の有効性を直接評価し、超過収益、リスク調整後収益、勝率などの定量化可能な指標を使用して評価します。これは、中国の金融ニュースのテキストからセンチメントを抽出するタスクにおいて、さまざまな LLM のパフォーマンスを評価および比較するための強力なフレームワークを提供します。

  • (4): この論文の手法は、大規模な中国ニュースの要約テキストから感情的要因を抽出し、バックテストのための定量的な取引戦略を構築します。研究者らは、ベースラインとの比較分析を通じて、感情的要因を抽出する際のさまざまな LLM のパフォーマンスの違いを発見しました。これらの方法は、目標と革新を達成する上で優れたパフォーマンスを達成し、中国の金融文書のセンチメント分析における LLM の適用を強力にサポートします。

メソッドセクション:

方法の詳細な紹介:

a. 一文による概要: この研究は、中国の金融文書からセンチメンタルな要素を抽出する際の大規模言語モデル (LLM) の有効性を評価することを目的とし、さまざまな種類の LLM のパフォーマンスを客観的に評価するための厳格なベンチマークと標準化されたバックテスト フレームワークを確立します。感情要素の抽出。

b. 方法の詳細な手順:
(1). まず、生成 LLM (Chat-GPT)、中国語固有の事前トレーニング済み LLM (Erlangshen-RoBERTa)、および金融ドメイン固有の罰金という 3 つの異なるモデルがベンチマークとして選択されます。 -調整された LLM 分類 (中国の FinBERT)。
(2). これらのモデルを、多数の中国ニュース要約テキストから感情要因を抽出するタスクに直接適用し、定量的取引戦略を構築します。
(3). 確立されたベンチマークを使用してこれらの戦略をバックテストし、そのパフォーマンスを評価します。
(4). 比較分析を通じて、感情要素抽出における LLM のパフォーマンスを向上させる最も重要な要素を調査します。
(5). LLM の評価の客観性を確保するために、標準化されたバックテスト実験プロセスが確立されています。
(6). バックテストでは、ポートフォリオを毎日調整する、市場が開く前に生成または取得されたニュースのみを使用する、感情的要因のランキングに応じて株式を売買するなど、統一された設定とパラメーターが採用されます。
(7). 実際の取引環境をシミュレートするため、スリッページや遅延を考慮し、取引価格は出来高加重平均価格(VWAP)を使用して計算されます。
(8). 手数料と印紙税を含む取引コストが考慮されます。
(9). CSI 300 指数をベンチマークとして使用して、超過収益を計算します。

以上が本論文の手法の詳細な手順であり、これらの手順を通じて、中国の金融文書から感情的要因を抽出する際のLLMの有効性が評価され、さらなる研究の参考となる厳格なベンチマークと標準化されたバックテストフレームワークが確立されます。

実験セットアップ:

  • 実験設定:
    この論文は、中国ニュースのテキストデータの有効性からセンチメント要因を抽出する際のさまざまな種類の大規模言語モデル (LLM) を客観的に評価するための、包括的で厳格なベンチマークと標準化されたバックテスト実験フレームワークを提供すること、および定量的な分析を構築する際のそのアプリケーションを提供することを目的としています。取引戦略。ベンチマークに対する公平な評価を確保するために、定量的取引戦略が統一された設定とパラメーターに従う必要があります。実験におけるすべての取引戦略が従う標準設定は次のとおりです。
  1. 毎日、市場が開くとき (北京時間の午前 9 時 30 分) にのみポートフォリオを調整してください。
  2. 市場が開く前に生成または取得されたニュースのみを使用してください。このようにして抽出された感情要因は、取引時に直接使用できます。
  3. ポートフォリオ内で感情的ランキングが最も高い株を購入し、最も低いランキングの株を売却することで、ポートフォリオを調整します。1 日あたり最大 500 株を売買できます。
  4. ポートフォリオの最大回転率は 1.0 です。これは、以前に保有していたすべての株式を新しい株式に完全に置き換えることができることを意味します。バックテストではめったに起こりませんが。
  5. 実際の取引ではよくあるスリッページや遅延を考慮して、バックテストでは直接市場の始値を使用しないことを選択しました。代わりに、北京時間の午前 9 時から午前 9 時 5 分までの出来高加重平均価格 (VWAP) を使用する、より現実的なアプローチを採用します。この VWAP は、この特定の 5 分間に発生したすべての取引の価値を合計し、その合計をその期間中の合計取引高で割ることによって計算されます。
  6. 取引金額の 0.15% の取引手数料を請求することで、シミュレートされた収益について楽観的になりすぎることを避けています。これらには、証券仲介会社に請求される 0.05% の手数料と証券取引所に支払われる 0.1% の印紙税が含まれます。実際、現在、中国の証券仲介会社が0.03%を超える手数料を請求することはほとんどなく、印紙税はすべての取引ではなく売り取引にのみ課されます。したがって、0.15% の取引金額は、実際に観察されるよりも厳しい取引環境をシミュレートします。
  7. 超過収益を計算する際には、CSI 300 指数をベンチマークとして使用します。バックテストを実行した後、ベンチマークのさまざまな指標を含む 3 つの感情要因に基づいて構築されたすべてのポートフォリオの結果とパフォーマンスを収集します。これらの指標を 2 つの部分に分け、主な業績指標である年間超過収益、年間株主資本利益率、勝率、シャープ レシオの結果を表 2 に示します。表 3 には、1 日あたりの平均保有株数と売上高を含めています。これらは、トレーディング戦略のポートフォリオ調整の特性に関する情報を提供する補足的な指標です。また、バックテスト期間全体にわたる 3 つの要素すべての超過収益を図 2 にプロットします。
  8. 年間リターン、リスク調整後リターン、超過リターンの観点から見ると、アーランシェンセンチメント要因が他の要因よりも優れていることが明確にわかります。Erlangshen-110M-Sentiment モデルから導出されたセンチメント要因の値と投資収益との相関関係をさらに明確にするために、Erlangshen センチメント要因のランキングに従って保有銘柄を 3 つの異なるグループに分割します。グループ 1 は感情因子の平均値が最も低く、グループ 3 は最も高い値を示しました。グループ 1、グループ 2、およびグループ 3 の超過収益が図 3 にプロットされます。特に、変動期間を経て 3 つのグループが徐々に分離することが観察されました。さらに、最も高いアーランシェンセンチメントファクター値を特徴とするグループ 3 は一貫して最高のリターンを示し、最も低いアーランシェンセンチメントファクター値を特徴とするグループ 1 は一貫して最低の超過リターンを示しました。この観察は、Erlangshen センチメント要因と Erlangshen-110M-Sentiment モデルによって抽出された投資収益との密接な関連性と相関関係をさらに裏付けています。
  9. 驚くべきことに、パラメータが 110 万しかない比較的小規模な Erlangshen モデルの方が、ベンチマークではわずかに優れたパフォーマンスを示しています。この結果は、中国の定量的株式取引戦略に取り組む実務者や研究者が、必ずしも大規模なモデルに多大なリソースを投入する必要がない可能性があることを示しています。代わりに、中国語の特性に特化した戦略的な微調整と広範な事前トレーニング手法を採用することで、望ましい結果を効果的に達成できます。この発見は、言語固有の機能を考慮し、的を絞ったアプローチを採用することの重要性を強調しており、中国の金融センチメント抽出という特定のタスクでは、モデルのサイズだけに依存しない最適な結果が達成できることを示しています。
  10. この研究では、中国のニューステキストデータからセンチメント要因を抽出する際に、株式取引戦略を定量化するための大規模言語モデル (LLM) の可能性を調査しています。私たちの調査は、中国の株式市場でLLMをうまく適用する必要性に対処し、客観的に評価するための厳格なベンチマークと標準化されたバックテストのフレームワークを提供します。

実験結果:

実験結果と分析:
この研究は、中国の金融テキストからセンチメント要因を抽出する際のさまざまなタイプの大規模言語モデル (LLM) の有効性を評価することを目的とし、包括的で厳密なベンチマークと標準化されたバックテスト フレームワークを確立します。この研究では、実験に 3 つの異なるモデルを使用しています。生成 LLM (Chat-GPT)、中国語固有の事前トレーニング済み LLM (Erlangshen-RoBERTa)、および金融ドメイン固有の微調整された LLM 分類器 (中国語 FinBERT) です。実験結果は、Erlangshen感情要素がすべての指標において他の要素よりも優れていることを示しています。さらに、アーランシェンセンチメントファクターの値とポートフォリオの超過収益との間に強い相関関係が観察され、中国株式市場での投資機会を獲得する際のこのファクターの有効性が実証されています。

これらの調査結果は、LLM を適用して中国の金融文書から感情要因を抽出する際に、言語固有の考慮事項と的を絞ったアプローチの重要性を強調するとともに、特定のタスクにおける比較的小規模な LLM の優れたパフォーマンスを強調しています。この研究は、包括的なベンチマークと標準化された手順を提供することにより、中国のニュース本文から感情的な要素を抽出するという特殊な領域における LLM の可能性を理解することに貢献します。私たちは、定量的取引戦略におけるLLMの有効性を評価するために、以前の研究からの洞察を組み込み、定量化可能な指標を使用して厳密なバックテストを実施することの重要性を示します。私たちは、センチメントの潜在的な可能性を共同で明らかにするために、他の研究者やクオンツファイナンスの専門家に私たちのベンチマークと標準化されたバックテスト手順を参照するよう勧めます。

おすすめ

転載: blog.csdn.net/hehedadaq/article/details/131414825