MIMIC-Diff-VQA

大規模モデルがアプリケーションの可能性を広げたい場合は、データ セットから始める必要があります。

胸部 X 線画像は臨床診断に最も一般的に使用される手段の 1 つであり、コンピューターと医学を組み合わせた重要な分野です。豊富なビジュアル情報と症例レポートのテキスト情報により、医療分野における視覚言語の開発が促進されます。医療 VQA は重要な方向性の 1 つであり、近年、有名な ImageCLEF-VQA-Med および VQA-RAD データセットには、胸部 X 線写真の質問と回答のペアが多数含まれています。

しかし、胸部 X 線検査レポートには大量の臨床情報が含まれているにもかかわらず、既存の医療 VQA タスクでは質問の種類と数が限られており、臨床面での貢献は比較的限られています。たとえば、ImageCLEF-VQA-Med には胸部 X 線撮影モダリティに関する質問が 2 つだけあり、「この画像に異常はありますか?」と「この画像で最も重要な異常は何ですか?」、VQA-RAD の質問カテゴリはは豊富ですが、画像が 315 枚しか含まれていません。

今年の KDD2023 では、テキサス大学アーリントン校、NIH、理化学研究所、東京大学、国立がん研究センターの研究者と放射線科医が共同で、臨床診断用の大規模 VQA データセット MIMIC -Diff-VQA を設計しました。

論文アドレス: https://arxiv.org/abs/2307.11986

データは放射線科の胸部 X 線レポートに基づいており、7 つの異なる質問タイプをカバーする、論理的な展開を伴うより豊富で正確な質問と回答のペアが設計されています。図1:臨床診断プロセス、医師は病気の経過前後の画像の違いを比較して判断します

この研究では、画像コントラスト VQA (差分 VQA) という新しいタスクも提案されています。2 つの画像が与えられ、2 つの画像間の違いに関する質問に答えます。医学では、この作業は放射線科医のニーズを直接反映します。図 1 に示すように、臨床現場では、医師は多くの場合、病変の変化を評価し、診断と治療のプロセスを評価するために、患者の以前の医療画像を比較および検討する必要があります。したがって、Difference VQA が尋ねる質問は、「この写真は過去の写真と比べてどう変わりましたか?」、「病気の重症度は軽減されましたか?」などです。

今回公開されたデータセットには、16万枚の写真と70万件の質問が含まれており、これまでの医療用VQAデータセットのサイズ記録を大幅に更新した。このデータセットに基づいて、この論文では GNN をベースラインとして使用する VQA 手法も提供します。臨床放射線写真における患者の姿勢の違いの問題を解決するために、この研究では、Faster R-CNN を使用して臓器の特徴をグラフ ノードとして抽出し、暗黙的な関係、空間的関係、意味論的な 3 つのグラフ ネットワーク関係を統合することで医療専門家を統合します。関係、知識、このうち、空間的関係はさまざまな臓器間の位置関係を指し、意味的関係には解剖学と疾患の関係知識マップが含まれ、暗黙的関係は完全な接続関係によって補完されます。これらのノード間の関係はグラフ ネットワークのエッジに埋め込まれ、ReGAT (関係認識グラフ アテンション ネットワーク) を通じて最終的なグラフの特徴を計算するために使用されます。研究チームは、このデータセットが医療分野における視覚的質問応答技術の開発を促進し、特に臨床に真に役立つGPT-4などのLLMのベンチマークを提供し、臨床上の意思決定をサポートする有用なツールとなることを期待している。そして患者教育。

医療ビジョン言語開発の現状

Medical Vision Language の分野では、深層学習モデルをトレーニングするために、既存の医療データベースに対して多くの調査が行われてきました。これらのデータベースには、MIMIC-CXR、NIH14、CheXpert などが含まれます。これらの作業は通常、疾患ラベルの直接分類 (図 2 (b))、医療レポートの作成 (図 2 (c))、視覚的な質問応答タスク (図 2 (d)) の 3 つのカテゴリに分類されます。疾患ラベル分類のタスクでは、まず NegBio や CheXpert などの単純なルールベースのツールを使用してレポートの内容から事前定義されたラベルを生成し、次に陽性サンプルと陰性サンプルを分類します。レポート生成の分野には、対比学習、アテンション モデル、エンコーダ デコーダ モデルなど、さまざまな方法があります。中心的な作業は、元のレポートに合わせて画像情報をテキストに変換することです。これらの課題では多くの進歩が見られましたが、特定の臨床応用の観点からはまだ限界があります。

たとえば、疾患ラベルの分類 (図 2 (b)) では、自然言語処理 (NLP) ルールが不確実性や否定を適切に処理できないことが多く、その結果、ラベルが不正確に抽出されます。一方、単純なラベルでは単一の異常情報しか得られず、臨床疾患の多様性を反映することができません。レポート生成システム (図 2(c)) は、画像内の隠された情報をマイニングすることでこの問題を回避しますが、臨床状況と組み合わせた医師の懸念事項に関する特定の質問に答えることはできません。たとえば、図 2 (a) では、元の放射線医学レポートではさまざまな一般的な疾患や医師がより注意を払う疾患が除外されていますが、人間のレポート作成者が放射線科医がどの疾患を除外したいのかを推測するのは困難です。

これに対し、ビジュアル・クエスチョン・アンサーング(VQA)タスク(図2(c))は、医師や患者が気になる特定の質問に答えることができるため、より実現可能です。 「体内に気胸はありますか?」と尋ねると、答えは間違いなく「いいえ」です。しかし、既存の VQA データセット ImageCLEF-VQA-Med には、「画像の何が問題になっていますか? この画像の主な異常は何ですか?」などの一般的な質問が少数含まれているだけで、多様性に欠けています。このような質問は、VQA の質問を分類の質問に格下げするだけでなく、臨床的に役立つ情報も限られています。VQA-RAD には 11 種類の質問をカバーするより多様な質問がありますが、このデータセットには 315 枚の画像しか含まれておらず、大規模なデータ フィードを必要とする深層学習モデルのパフォーマンスを十分に活用できません。医療ビジョン言語の分野におけるこの空席を埋めるために、この研究では放射線科医の実践を完全に組み合わせ、この画像コントラスト VQA (差分 VQA) タスクを提案し、このタスクに基づいて大規模な MIMIC-Diff-VQA データセットを構築します。図 2: 現在の医療ビジョン言語におけるさまざまな手法の比較

データセットの紹介

MIMIC-Diff-VQA データセットには、164,654 枚の画像と 700,703 個の質問が含まれており、異常、存在、方向、位置、レベル、タイプ、差異を含む、臨床的に意味のある 7 つの異なる質問タイプをカバーしています。最初の 6 つの質問は従来の VQA と同じで、現在の画像についてのもので、差分タイプの問題のみ 2 つの画像についてのものです。各質問の割合データと質問の完全なリストについては、それぞれ図 3 と表 1 を参照してください。図 3: MIMIC-Diff-VQA 質問タイプの統計 表 1: 各質問タイプの質問例

データセットの構築

この研究では、MIMIC-CXR によって提供された 377,110 枚の画像と 227,835 件の放射線医学レポートから提供される大量の胸部 X 線画像とテキスト レポートに基づいて、放射線科医の指導の下で MIMIC-Diff-VQA データセットを構築しました。

MIMIC-Diff-VQA データセットを構築する最初のステップは、KeyInfo データセットを抽出することです。この KeyInfo データセットには、レポートに表示される陽性の異常物体と、それに対応する陰性的に表示される異常の名前、レベル、タイプ、位置、および物体名など、各放射線医学レポートの重要な情報が含まれています。抽出プロセスの最初のステップは、医師の意見に従って、最もよく使用される異常キーワードとそれに対応する属性キーワード (レベル、タイプ、場所) を選択し、これらのキー情報を抽出するための対応するルールを設定することです。時間の「正/負」情報を保持します。

データセット構築の品質を確保するために、この調査は主に「抽出、チェック、修正」の手順に従います。まず、データベースレポート内の重要な情報が正規表現によって設定されたルールを通じて抽出され、次に抽出されたレポートが抽出されます。結果がチェックされ、抽出結果がより正確になるように問題のある領域が修正されます。このうち、検査に使用される自動手法には、ScispaCyを使用したレポート内のエンティティ名の抽出、文中の品詞の役割の考慮、MIMIC-CXR-でのラベル抽出結果の相互検証が含まれます。 JPG データセット。これらの自動化された手法と手動の検証およびスクリーニングを組み合わせ、「抽出、チェック、変更」の手順を経て、研究は最終的に KeyInfo データセットの構築を完了しました。

KeyInfo データセットの構築が完了したら、研究はそれに基づいて各患者の 1 回または複数回の来院に対応する質問と回答を設計し、最終的に MIMIC-Diff-VQA データセットを構成できます。

品質保証

生成されたデータセットの品質をさらに保証するために、この研究では 3 人の人間の検証者を使用して、合計 1700 のテストの質問と回答をランダムに検証しました。表 2 に示すように、最終的な平均正答率は 97.4% に達しました。表 2: 人間による検証データセットの結果

ベースラインモデルの紹介

同時に、この研究では、提案されたデータセットに基づいて、胸部 X 線および差分 VQA タスク用のグラフ ネットワーク モデルを設計しました。図 4 に示すように、胸部 X 線撮影のプロセスを考慮すると、同じ患者が異なる時点で体位の違いに起因する大規模な変位や変化を伴う可能性があります。図4:本研究で提案する手法のモデル構造

したがって、gai は入力画像の解剖学的構造を特定し、対応する検出オブジェクトの特徴をグラフ ネットワークのノードとして抽出し、特徴に対する患者の体位の影響を排除します。グラフ ネットワーク内の各ノードは、解剖学的構造の位置特徴と質問特徴の組み合わせです。画像に含まれる可能性のある病変情報を完全にマイニングするために、この研究では、事前に訓練されたさまざまなモデルを通じて、純粋な解剖学的構造の特徴と各解剖学的構造の疾患の特徴を抽出します。

「マルチリレーショナル グラフ ネットワーク モジュール」では、研究では 3 つの異なるグラフ ネットワーク関係を実行して、暗黙的な関係、空間的関係、意味的関係を含む最終的なグラフ ネットワークの特徴を計算しました。潜在的な関係の場合、単純な完全接続を使用して、モデルが潜在的な関係内の貴重な情報を発見できるようにします。空間関係については、研究チームはノード間の11の異なる空間関係をエッジとして考慮し、ReGAT(Relation-aware Graph Attendee Network)を計算に使用しました。意味関係について、この研究では、共起知識グラフと解剖学的知識グラフという 2 つの知識グラフを導入します。前者は異なる疾患の同時発生の確率関係を考慮し、後者は疾患と解剖学的構造の関係を考慮します。

この研究では、最初のステップで対応する解剖学的構造の特徴と疾患の特徴を抽出したため、これらをこれら 2 つのナレッジ グラフに埋め込むことができます。本研究では、空間関係を計算するグラフネットワークと同様に、グラフネットワークの端として共起関係、解剖学的関係、無関係の3種類の意味関係を考慮し、それぞれの関係を数値ラベルで表現し、ReGATを利用しています。数学。

最後に、3 つのリレーショナル グラフ ネットワークによって計算されたノードの特徴がグローバルにプールされ、最終的な画像に対応するグラフの特徴が取得されます。差分マップ特徴は、2 つの画像のマップ特徴を減算することによって取得できます。これらの特徴については、アテンション メカニズムを通じて対応する特徴ベクトルが取得され、2 つのピクチャの特徴ベクトルを減算して得られる差分特徴ベクトルが最終 LSTM 回答生成器に入力されて最終回答が得られます。ワオソフト アイオット http://143ai.com

この研究では、MMQ (Multiple Meta-model Quantifying)、MCCFormers (Multi-Change Captioning transformers)、IDCPCL (事前トレーニングと対比学習による画像差分キャプション) など、この分野で最も先進的な手法とモデルを比較しています。このうち、MMQ は従来の医療 VQA モデルであり、MCCFormers と IDCPCL は差分記述 (Difference Captioning) モデルです。MMQ は複数の画像を扱うことができないため、本研究では Difference を除く他の 6 種類の質問についてのみ提案モデルと比較します。MCCFormers と IDCPCL については、VQA モデルではなく、同時に 2 つの画像を入力する必要があるため、この研究では差分クラス問題についてのみ比較します。比較結果を表 3 と表 4 に示します。このモデルは、Difference VQA で優れたパフォーマンスを示しています。

表 3: 非差分問題における本研究で提案する手法と MMQ の精度比較 表 4: 差分問題における複数の手法と差分記述法の比較

要約と考察

この研究は、医学的な Difference VQA 問題を提案し、大規模な MIMIC-Diff-VQA データセットを収集し、学術コミュニティにおける関連技術の開発を促進し、臨床上の意思決定の補助を含む医療コミュニティへの強力なサポートを提供することを目指しています。患者教育ツールなど 同時に、この研究では、この問題を解決するために専門家の知識を意識したマルチリレーショナル グラフ ネットワーク モデルを設計し、参考として学術コミュニティにベンチマーク モデルを提供しました。関連分野の現在の最先端の方法と比較すると、提案された方法が大幅な改善を達成していることがわかります。

しかし、本研究のデータセットと方法には、特殊な状況下で同じ病変が2箇所以上に出現する状況が考慮されていないことや、同義語の組み合わせにもさらなる余地があることなど、依然として一定の限界がある。改善。

さらに、提案されたモデルは次のようないくつかのエラーも生成します。 1. 無気肺と肺浸潤が互いに誤認されるなど、同じ異常のさまざまな症状の側面の混同。2. 同じ種類の異常でも異なる名前が付けられている(拡大した心臓の影が心肥大として誤分類されるなど)。3. 画像特徴の抽出に使用される事前トレーニング済みモデル (Faster-RCNN) は、不正確な特徴を提供し、肺浸潤を胸水として誤って識別するなど、誤った予測につながる可能性があります。

おすすめ

転載: blog.csdn.net/qq_29788741/article/details/131942266