科学研究動向のリアルタイム追跡丨メタ AI、マイクロソフト、清華大学などの機関から 9.21 に選ばれた新しい論文

科学研究者は、最新の科学技術の進歩や研究成果を得るために、毎日大量の学術文献を検索・閲覧する必要があります。

しかし、従来の検索および読み取り方法では、科学研究者のニーズを満たすことができなくなりました。

AMiner AI は、検索、読み取り、知識 Q&A を統合した文献知識ツールです。論文の検索と閲覧の効率を迅速に向上させ、その分野の最新の研究動向を入手し、科学研究の作業をより快適にするのに役立ちます。
ここに画像の説明を挿入します

特定の論文について詳しく話したい場合は、論文のリンクをブラウザに直接コピーするか、AMiner AI ページに直接アクセスできます: https://www.aminer.cn/chat/g/explain

2023 年 9 月 21 日に選ばれた新しい論文のリスト:

1.大規模な言語モデルによるエンドツーエンドの音声認識コンテキスト化

この記事では、文脈化された音声認識モデルに大規模言語モデル (LLM) を使用する新しいアプローチを紹介します。音声認識を、事前トレーニングされた LLM に基づく混合モダリティ言語モデリング タスクとして考慮することで、デコーダーを使用して文字起こしを完了するための音声機能とコンテキストのオプションのテキスト タグを提供します。したがって、トレーニング中に、システムは非構造化コンテキスト情報を活用する方法を自動的に学習します。実証結果によると、追加のテキスト コンテキストを提供するとパフォーマンスが大幅に向上し、WER が 6% 削減されることがわかりました。さらに、ベースラインの文脈化された RNN-T システム (25 倍を超える音声データセットでトレーニングされた) と比較して、私たちの方法は WER を全体で 7.5% 改善し、まれな単語も改善することがわかりました。WER は 17% でした。全体として、少数のトレーニング可能なパラメーターを備えたアダプターを追加することで、同じテキストのみの入力機能を維持しながら、事前トレーニングされた LLM のコンテキスト化された音声認識機能を解放できることを示します。

https://www.miner.cn/pub/650ba7c03fda6d7f06e6115e/?f=cs

2. ラングイーニ キッチン: さまざまな規模のコンピューティングでの言語モデリング研究を可能にする

この記事では、コンピューティング リソースが限られている場合に言語モデリングの研究をどのように実施するかという具体的な問題を示しています。この記事では、アクセラレータ時間ごとに同等の計算を測定することでモデルの比較を実行する実験プロトコルについて説明します。このようにして、合計パラメータまたは浮動小数点演算に影響を与える重要なハイパーパラメータの制限を回避できます。この記事では 2 つのベンチマーク モデルも提供し、改良された LSTM モデルの方がスケーラビリティの点で優れていることを実験を通じて示しています。最後に、この研究が有意義で再現可能な言​​語モデリング研究の基礎を築くことを願っています。

https://www.miner.cn/pub/650ba7c03fda6d7f06e612a0/?f=cs

3.音声言語表現学習のための大規模データセット

音声テキストデータセットの規模が不十分であること、内容が単純すぎること、収集プロセスが煩雑であることなど、音声表現学習分野における現状の問題点について説明します。これらの問題を解決するために、研究チームは、公開ツールまたは API に基づく革新的な自動音声字幕生成プロセスを提案し、190 万を超える音声を含む大規模で高品質の音声言語データセット (Auto-ACD) を構築しました。テキストペア。このデータセットの有効性を実証するために、一般的なモデルをこのデータセットでトレーニングし、さまざまな下流タスク (音声言語の検索、音声字幕の生成、環境分類など) のパフォーマンスの向上を実証します。さらに、研究チームは新しいテスト セットを構築し、音声テキスト タスクのベンチマークも提供しました。

https://www.miner.cn/pub/650ba7c03fda6d7f06e613ef/?f=cs

4.ニューラル3Dポートレートの制御可能な動的外観

この記事では主に、Neural Radiance Fields (NeRF) における動的外観の制御の問題について説明します。NeRF の最近の進歩により、頭のポーズ、顔の表情、視線方向を制御して、動的なポートレート シーンを再構築および再作成できるようになりました。ただし、このようなモデルをトレーニングするには、変形領域 (顔など) にわたって測光の一貫性を維持する必要があります。つまり、頭のポーズや顔の表情が変化しても、顔は均一に照明されたままでなければなりません。スタジオ環境であっても、ビデオのフレーム間であっても測光の一貫性を維持することは難しいため、動的なポートレートを再現するときにアーティファクトが発生しやすくなります。この問題に対処するために、著者らは、現実世界のキャプチャ条件下で完全に制御可能な 3D ポートレートを作成できる CoDyNeRF システムを提案しています。CoDyNeRF は、予測された表面法線と顔の表情や頭のポーズの変形に関連する動的外観モデルを通じて、正規化された空間における照明関連の効果を近似することを学習します。頭の姿勢や表情の変化によって生じる剛体変形と非剛体変形により法線を直接予測することが困難になるため、表面法線は人間の頭表面法線の大まかな事前知識である 3D 形状モデルを使用して予測されます。著者らは、スマートフォンで撮影した被写体の短いビデオのみを使用してトレーニングすることにより、明示的な頭のポーズと表情の制御、およびリアルな照明効果を備えたポートレートシーンの自由視点合成における手法の有効性を実証しました。

https://www.miner.cn/pub/650ba7c03fda6d7f06e611c9/?f=cs

5.LMDX: 言語モデルベースの文書情報の抽出とローカリゼーション

この論文では、半構造化文書からの情報抽出における言語モデルの適用における問題点を指摘しています。これらの問題には、高品質の抽出にとって非常に重要なレイアウト エンコーディングが LLM に含まれていないこと、および答えが架空のものではないことを保証するベンチマーク メカニズムが欠如していることが含まれます。これらの問題が存在するため、LLM は半構造化文書情報抽出タスクにうまく適用されていません。

https://www.miner.cn/pub/650ba7c03fda6d7f06e61185/?f=cs

6.DreamLLM: 相乗的なマルチモーダルな理解と創造

この論文では、マルチモーダル大規模言語モデル (MLLM) を初めて実装する DreamLLM と呼ばれる学習フレームワークを紹介し、マルチモーダルな理解と作成の間の見落とされがちな相乗効果によってモデルの機能を強化します。DreamLLM の動作は 2 つの基本原則に従います。最初の原理は、元のマルチモーダル空間で直接サンプリングすることによって、言語と画像の事後生成モデルを生成することです。このアプローチにより、CLIP などの外部特徴抽出プログラムの制限と情報損失の問題が回避され、マルチモーダル データをより包括的に理解できるようになります。第 2 に、DreamLLM は、テキストと画像のコンテンツ、および非構造化レイアウトをモデリングしながら、オリジナルのインターリーブ ドキュメントの生成を容易にします。これにより、DreamLLM はすべての条件付き分布、周辺分布、および結合マルチモーダル分布を効率的に学習できるようになります。その結果、DreamLLM は、自由形式のインターリーブ コンテンツを生成できる最初の MLLM になります。包括的な実験を通じて、DreamLLM がゼロショット マルチモーダル ユニバーサル モデルとして優れたパフォーマンスを備え、強化された学習相乗効果の恩恵を受けていることを実証しました。

https://www.miner.cn/pub/650ba7c03fda6d7f06e613ee/?f=cs

7.FreeU: 拡散 U-Net の無料ランチ

従来の U-Net 構造のバックボーンは主にノイズ除去プロセス中にノイズ除去の役割を果たしますが、スキップ接続では主に高周波機能が導入されるため、ネットワークはバックボーンのセマンティック情報を無視します。著者らは、追加のトレーニングや微調整を行わずに生成モデルの品質を向上させる、「FreeU」と呼ばれるシンプルかつ効果的な方法を提案しています。U-Net のスキップ接続とバックボーン機能マップの寄与の重みを合理的に調整することで、U-Net 構造の 2 つのコンポーネントの利点を最大限に活用できます。この方法は、画像およびビデオの生成タスクで満足のいく結果を達成し、既存の拡散モデルに簡単に統合できるため、2 つのスケーリング係数を変更するだけで生成品質が向上します。

https://www.miner.cn/pub/650ba7c03fda6d7f06e613ec/?f=cs

8.Kosmos-2.5: マルチモーダル読み書きモデル

この論文では、テキスト密度の高い画像のマルチモーダル機械読み取りモデルである Kosmos-2.5 を紹介します。このモデルは、2 つの異なる、しかし協調的な転写タスクで良好に実行します。(1) 空間を認識したテキスト チャンクの生成。各テキスト チャンクには画像内の空間座標が割り当てられます。(2) マークダウン形式でのテキストの生成。スタイルと構造をキャプチャする構造化テキスト出力。 。統合されたマルチモーダル テキスト機能は、共有の Transformer アーキテクチャ、タスク固有のプロンプト、および柔軟なテキスト表現を通じて実現されます。エンドツーエンドのドキュメントレベルのテキスト認識と画像からMarkdownへのテキスト生成に関してKosmos-2.5を評価します。さらに、このモデルは、教師付き微調整を通じて、さまざまな手がかりを使用してテキストを多用する画像理解タスクに簡単に適応できるため、テキストが豊富な画像を含む実用的なアプリケーションにとって多用途のツールになります。この取り組みは、マルチモーダル大規模言語モデルの将来の拡張への道も切り開きます。

https://www.miner.cn/pub/650ba7c03fda6d7f06e6139a/?f=cs

9. 検証連鎖は大規模言語モデルにおける幻覚を軽減する

この記事では、大規模な言語モデルでは無視できない問題、つまり合理的だが間違った事実情報の生成、いわゆる「幻想」を紹介しています。この研究では、言語モデルの応答を注意深く検討することでエラーを修正する能力を調査しています。著者らは、検証連鎖 (CoVe) と呼ばれる手法を開発しました。この手法では、モデルはまず (i) 初期応答の草案を作成し、次に (ii) 草案をチェックするための検証質問を計画し、(iii) バイアスを回避するためにこれらの質問に独立して回答します。他の応答から取得し、最後に (iv) 最終的に検証された応答を生成します。実験では、CoVe がウィキデータからのリストベースの質問、クローズドブック MultiSpanQA、長いテキストの生成など、さまざまなタスクで幻覚を軽減できることが示されています。

https://www.miner.cn/pub/650ba7c03fda6d7f06e613ea/?f=cs


終わり

AMiner Web サイトのトップページに「Daily Select New Papers」トピックを追加しました。「購読」および「ナレッジベースに追加」をクリックすると、すべての論文情報を入手できます。

ここに画像の説明を挿入します

注目の新着論文をすべて表示: https://www.miner.cn

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/133176934