肺の画像とテキスト情報に基づくマルチモーダルモデルアーキテクチャ

文章は
「臨床診断のためのマルチモーダル入力の統合処理を備えたトランスフォーマーベースの表現学習モデル」

https://www.nature.com/articles/s41551-023-01045-x
(arXiv バージョンのリンク: https://arxiv.org/abs/2306.00864)

https://github.com/RL4M/IRENE

この研究は医療用人工知能に焦点を当てており、臨床疾患診断のためのマルチモーダル表現学習モデルを提案しています。

主に肺の画像と臨床テキスト情報をマルチモーダル入力として使用します。

1. 研究の背景

1.1 はじめに

臨床診断において、医師は通常、正確な判断を下すために、患者の訴え、医療画像、臨床検査結果などの多面的な情報を総合的に考慮する必要があります。ただし、機械学習に基づくインテリジェントな医療診断において医療画像と関連する臨床情報をより適切に解釈する方法については、まだ議論の余地があります。現在のマルチモーダル臨床意思決定支援システムは、主に不均一なアプローチを使用してマルチモーダル データを融合します。

さまざまな融合段階に応じて、従来の不均一マルチモーダル融合法を 2 つの大きなカテゴリ、つまり初期融合と後期融合に分類できます。ただし、初期および後期融合では、マルチモーダル診断プロセスを 2 つの比較的独立した段階、つまり各モダリティの個別の特徴抽出と複数のモダリティ特徴の融合に分離することを選択します。この設計には当然の制限があります。それは、異なるモダリティ間の内部関連を発見してエンコードできないことです。もう1つの潜在的な問題は、従来のマルチモーダル人工知能診断方法ではテキストを構造化する必要があることが多く、テキスト構造化プロセスには複雑なラベル付けプロセスや労働集約など多くの問題があることです。

同時に、Transformer アーキテクチャに基づく深層学習手法は、自然言語処理とコンピューター ビジョンの分野を再構築しています。畳み込みニューラル ネットワークや単語埋め込みアルゴリズムと比較して、Transformer は入力データの形式に関する仮定がほとんどないため、マルチモーダルな入力データからより高品質の特徴表現を学習することが期待されます。さらに、Transformer の基本的なアーキテクチャ コンポーネント (セルフ アテンション モジュール) は、さまざまなモダリティにわたってほとんど変更されていないため、統合された柔軟なモデルを構築するためのより良い機会が提供されます。

1.2 貢献

IRENEには以下の3つのメリットがあります。

  1. マルチモーダル表現学習に統合アーキテクチャを使用し、個別の表現学習パスを回避します。

  2. 表現学習は、面倒なテキスト構造化手順を行わずに、元のテキストに対して直接実行されます。

  3. 双方向のマルチモーダル アテンション メカニズムを介して、さまざまなモダリティ間の相互関係を発見し、エンコードします。

1.3 関連作業

2.方法

2.1 文字情報と画像の入力

ここに画像の説明を挿入

2.2 各モードの表現を統一する

IRENE の中核は、統合されたマルチモーダル診断トランスフォーマー (つまり、MDT) と双方向マルチモーダル アテンション メカニズムです。MDT は、マルチモーダル入力データから直接診断結果を生成する新しい Transformer スタック構造です。

以前の非統一的な方法とは異なり、この新しいアルゴリズムは、マルチモーダルな臨床情報から全体的な表現を段階的に学習することによって、さまざまなモーダルな特徴を個別に学習する技術的ルートを放棄します。さらに、MDT は、構造化されていない生のテキストに対して表現学習を実行する機能を IRENE に与え、非統一的な方法での退屈なテキスト構造化ステップを回避します。

2.3 モーダルの違いへの対処

モダリティ間の違いをより適切に処理するために、IRENE は、異なるモダリティ間の相互関係を発見してエンコードすることによって、モダリティに依存しない特徴表現と診断指向の全体的な表現を接続する、双方向のマルチモーダル アテンション メカニズムを導入します。この明示的な学習およびエンコードのプロセスは、MDT におけるマルチモーダル表現の学習プロセス全体を補完するものと見なすことができます。

3. 実験

3.1 実験環境の設定

3.2 比較実験

ここに画像の説明を挿入

  • IRENE は、これまでの不均一な診断パラダイムよりも複合的な医療診断においてより効果的です。

早期融合法および後期融合法と比較して、IRENE は肺疾患の診断を平均 9% および 10% 改善しました。一方、IRENE は 8 つの疾患で少なくとも約 3% のパフォーマンス向上を達成し、4 つの疾患 (気管支拡張症、気胸、ILD、および結核) の診断を大幅に改善し、AUROC を 10% 以上増加させています。さらに、IRENE の上記の利点は、新型コロナウイルス感染症患者の有害な臨床転帰を予測するタスクにおいて部分的に検証されています。初期融合法および後期融合法と比較して、IRENE は平均パフォーマンスをそれぞれ 7% および 9% 向上させます。

  • IRENE は、マルチモーダルな医療診断に適した、より優れた Transformer アーキテクチャを提供します。

GIT や Perceiver と比較すると、IRENE には医療診断シナリオにおいて明らかな利点があります。GIT は大規模なマルチモーダル事前トレーニングが困難ですが、IRENE は、双方向のマルチモーダル アテンション メカニズムを通じて限られた医療データと補完的なセマンティック情報を効果的に活用し、事前トレーニング データへの依存を軽減できます。さらに、Perceiver はマルチモーダル入力を単純に連結するため、IRENE の融合表現を学習することが難しく、入力モードの割合が大きいため、最終的な診断への影響が大きくなります。IRENE は、双方向のマルチモーダル アテンション メカニズムを使用してマルチモーダル表現全体を学習し、特徴表現に対する複数のモーダル データの影響のバランスをとり、さまざまなタスクで満足のいくパフォーマンスを発揮します。

  • IRENE は、従来のワークフローにおけるテキスト構造への依存を簡素化します。

従来の非統合マルチモーダル人工知能医療診断方法では、非構造化テキストに対処する従来の方法はテキスト構造化を実行することであり、その具体的なプロセスは人工ルールと最新の自然言語処理ツールの支援に大きく依存しています。対照的に、IRENE は非構造化臨床テキストを入力として直接受け入れることができるため、面倒なテキスト構造化ステップへの依存を軽減できます。

3.3 アブレーション実験

3.3.1 肺疾患の特定タスク

表 1 に示すように、IRENE は、肺疾患の特定において、画像のみのモデル、従来の不均一な診断パラダイム、および 2 つの最先端の Transformer ベースのマルチモーダル モデル (つまり、Perceiver と GIT) を大幅に上回っています。

実験指標の観点から見ると、IRENE は、約 12% に相当する 0.924 (95% CI: 0.921, 0.927) という最も高い平均 AUROC を達成しました。

IRENE は、不均一な早期融合 (0.835、95% CI: 0.832、0.839) および後期融合 (0.826、95% CI: 0.823、0.828) の診断戦略と比較して、少なくとも 9% のパフォーマンス上の利点を達成しました。

ここに画像の説明を挿入
IRENE と GIT (0.848、95% CI: 0.844、0.850) を比較すると、IRENE が AUROC より 7% 以上優れていることがわかります。

DeepMind が開発した Transformer ベースのマルチモーダル モデルである Perceiver と比較しても、IRENE は依然としてかなり競争力のある結果を達成し、Perceiver (0.858、95% CI: 0.855、0.861) を 6% 上回りました。

各疾患を検討し、5 つのベースラインすべてにわたって IRENE を以前の最良の結果と比較したところ、IRENE は気管支拡張症 (12%)、気胸 (10%)、間質性肺疾患 (ILD、10%) に対して有意に効果的であることがわかりました。 )と結核(9%)で最大の改善が見られました。

3.3.2 cov19 認識タスク

新型コロナウイルス感染症患者のトリアージは、胸部 CT スキャンとその他の画像以外の臨床情報の共同解釈に大きく依存しています。

この場合、IRENE は肺疾患認識タスクよりも大きな利点を示します。

表 2 に示すように、IRENE は、新型コロナウイルス感染症患者における 3 つの有害な臨床転帰 (ICU 入院、人工呼吸器の使用、死亡) の予測において、目覚ましいパフォーマンスの向上を達成しています。

平均 AUPRC に関しては、IRENE (0.592、95% CI: 0.500、0.682) が画像のみのモデル (0.307、95% CI: 0.237、0.391) および初期融合モデル (0.521、95%) を大幅に上回りました
。 CI: 0.435、0.614) および
後期融合モデル (0.503、95% CI: 0.422、0.598) で、それぞれほぼ 29%、7%、9% 改善されました。

ここに画像の説明を挿入
具体的な臨床転帰に関しては、IRENE (0.712、95% CI: 0.587、0.834) は、非均一早期融合法 (0.665、95% CI: 0.548、0.774) よりも約 5% 優れた ICU 入院予測を達成しました。

同様に、新しいクラウン患者に人工呼吸器を使用するかどうかを予測する場合、IRENE は以前の融合モデルと比較して 6% 以上のパフォーマンス向上を達成しました。画像のみのモデル (0.192、95% CI: 0.073、0.333)、早期融合モデル (0.346、95% CI: 0.174、0.544)、および後期融合モデル (0.335、95% CI: 0.168、0.554) と比較すると、IRENE (0.441、5% CI: 0.270、0.617) は、新型コロナウイルス感染症患者の死亡転帰をより正確に予測できます。2 つの Transformer ベースのマルチモーダル モデル (GIT と Perceiver) と比較して、IRENE は平均パフォーマンスで 6% 以上の利点を達成できます。

4. まとめ

最新の自然言語処理技術と画像認識技術を組み合わせたIRENEは、医療診断において重要な役割を果たします。統合されたマルチモーダル診断トランスフォーマーと双方向マルチモーダル アテンション メカニズムを通じて、マルチモーダル臨床データの全体的な表現を徐々に学習し、さまざまなモーダル機能を個別に学習する技術的ルートを放棄します。現実の世界では、IRENE は、患者のトリアージや、風邪患者と緊急介入が必要な重篤な症状の患者の区別などの患者ケア プロセスの合理化に役立ちます。また、診断が不確かな場合や複雑な場合には、IRENEを医師の補助ツールとしても活用し、診断上のアドバイスを提供し、医師の判断力をさらに高めることもできます。さらに、IRENE は医療資源が不足している地域でも大きな価値があります。

論文の責任著者は、香港大学のYu Yizhou教授、四川大学西中国医科大学のWang Chengdi教授、マカオ科学技術大学のZhang Kang教授、西側学部長のLi Weiminです。四川大学中国医学院;筆頭著者は香港大学の博士課程候補者、周宏宇氏。

6月12日、国際トップ学術誌「Nature Biomedical Engineering」(英語名:Nature Biomedical Engineering)に、香港大学、華西医科大学、四川大学、神瑞医科大学、マカオ科学大学が共同で完了した研究が掲載された。そしてテクノロジー。

おすすめ

転載: blog.csdn.net/chumingqian/article/details/131461559