2023 Huawei Cup 大学院数学モデリング コンペティション E 質問アイデア分析 + コード + 論文

以下は、C 氏が書いた 2023 Huawei Cup 大学院数学モデリング コンペティションの質問 E のアイデアの分析です。記事の最後にあるコード ペーパーを参照してください。

電子質問のアイデア出血性脳卒中臨床インテリジェント診断と治療モデリング

1. 背景の紹介

出血性脳卒中は、非外傷性の実質内血管破裂によって引き起こされる脳出血を指し、全脳卒中発生率の 10 ~ 15% を占めます。この病気の原因は複雑で、通常は破裂した脳動脈瘤や異常な脳動脈などの要因が原因で、破裂した血管から血液が脳組織に流入し、脳に機械的損傷を引き起こし、一連の複雑な生理学的症状を引き起こします。そして病理学的反応。出血性脳卒中は急性に発症し、進行が速く予後不良であり、急性期の死亡率は45~50%と高く、患者の約80%は重度の神経機能障害を起こし、社会と社会に重大な健康被害をもたらします。患者の家族や経済的負担。したがって、出血性脳卒中のリスクを調査し、画像特性、患者の臨床情報、臨床診断と治療計画を統合し、患者の予後を正確に予測し、それに応じて臨床上の意思決定を最適化することは、臨床的に非常に重要です。

背景分析:最初の段落は、質問で解決する必要がある問題について説明します。病気のリスクを発見するには、判断するための数学的モデリングを確立する必要があり、特徴の統合には特徴エンジニアリング関連のアルゴリズムの使用が必要になる場合があり、患者の予後を予測するには機械学習アルゴリズムを使用してデータを予測する必要がある場合があります。

出血性脳卒中後の血腫の拡大は、予後不良の重要な危険因子の 1 つです。出血後短期間のうちに、脳組織の損傷や炎症反応などにより血腫の範囲が徐々に拡大し、急激な頭蓋内圧の上昇により神経機能がさらに悪化し、生命の危険にさらされる場合があります。患者の人生。したがって、血腫の拡大を監視および制御することは、重要な臨床上の懸念事項の 1 つです。さらに、脳出血後の二次損傷のマーカーとして、血腫周囲の浮腫が近年臨床的に広く注目されています。血腫の周囲の浮腫は脳組織の圧迫を引き起こす可能性があり、これがニューロンの機能に影響を及ぼし、さらに脳組織に損傷を与え、それによって患者の神経障害を悪化させます。要約すると、出血性脳卒中後の 2 つの重要な鍵となるイベント、すなわち血腫の拡大と血腫周囲浮腫の発生と進行を早期に特定し、予測することは、患者の予後を改善し、生活の質を向上させる上で非常に重要です。

背景分析:この段落は明らかですが、最後の文が重要なポイントであり、血腫拡大と血腫周囲浮腫の発生と進行です。早期の特定と予測は、患者の予後を改善し、生活の質を向上させるために非常に重要です。同氏は、拡張と浮腫を特定して予測する際には、拡張と浮腫に対応する数学的モデリングを確立し、この 2 つの重症度を定量化し、その後、この 2 つを融合するための包括的なモデルを作成する必要があると述べました。このステップがモデル融合のプロセスです。統合モデルは、早期の特定と予測に使用できます。

医用画像技術の急速な進歩により、脳組織の損傷と出血性脳卒中後の進化を非侵襲的に動的にモニタリングするための強力な手段が提供されます。近年、人工知能テクノロジーは急速に発展し、医療分野で広く使用されており、大量の画像データの詳細なマイニングとインテリジェントな分析の新たな機会をもたらしています。このコンペティションで提供された画像情報に基づいて、患者の個人情報、治療計画、予後データと組み合わせて、出血性脳卒中の予後不良につながる危険因子を明らかにし、正確な診断を達成するためのインテリジェントな診断および治療モデルを構築できることが期待されます個別化された有効性評価と予後予測。近い将来、関連する研究結果と科学的証拠がさらに臨床現場に応用され、出血性脳卒中患者の予後の改善に貢献すると考えられています。

背景分析:この段落では、私たちが行う必要があることを示しています。画像情報に基づいて、患者の個人情報、治療計画、予後データと組み合わせることで、インテリジェントな診断と治療モデルを構築し、健康状態の悪化につながる危険因子を明らかにすることができます。出血性脳卒中の予後を予測し、正確な個別診断を実現し、有効性評価と予後予測を実現します。以下のトピックを見てみましょう

左の写真は脳出血患者の単純CTスキャンで、右の写真は血腫が赤、血腫周囲の浮腫が黄色です。

1. データセットとモデリングの目標の概要

コンテストの質問では、出血性脳卒中患者の個人歴、病歴、発症および治療関連情報、および 160 人の患者 (100 個のトレーニング データ セット + 60 個の独立した検査データ セット) の反復画像検査 (CT スキャン) が提供されます。評価の場合、この部分の情報は「表 1 - 患者リストと臨床情報」で照会できます図1は脳出血患者の単純CTスキャンで、赤い部分が血腫部分、黄色い部分が浮腫部分です。コンテストの質問は、各時点での血腫/浮腫の体積、位置、形状の特徴、グレースケール分布などの情報を含む画像検査データを提供します。体積と位置の情報は、「表 2 - 患者の画像情報における血腫と浮腫の体積と位置」で照会できます。形状およびグレースケール分布情報は、「表 3 - 血腫および浮腫の患者画像情報の形状およびグレースケール分布」で照会できます。

コンテストの目標:実際の臨床データの分析を通じて、出血性脳卒中患者における血腫拡大のリスク、血腫周囲の浮腫の発生と進展を研究し、最終的に臨床データを組み合わせて出血性脳卒中患者の臨床予後を予測するそして画像情報。

ターゲット変数:

Ø 血腫の拡大が発症から 48 時間以内に発生したかどうか: 1 はい、0 いいえ。 

Ø 発症後 90 日の mRS: 0-6、順序変数。中でも、mRS は脳卒中後の患者の機能状態を評価するための重要なツールであり、詳細については、関連する概念について付録 2 を参照してください。

臨床情報: 関連情報は「表 1 - 患者リストと臨床情報」で取得されます。

Ø ID: 患者 ID。

n トレーニングデータセット: sub001 ~ sub100、合計 100 ケース。患者情報、初回およびすべてのフォローアップ画像データ、90 日間の mRS が含まれます。

n テストデータセット 1: sub101 ~ sub130、合計 30 ケース。含まれるもの: 患者情報、最初の画像データ。含まれないもの: 追跡画像データおよび 90 日間の mRS。

n テストデータセット 2: sub131 ~ sub160、合計 30 ケース。患者情報、初回およびすべてのフォローアップ画像データが含まれます。含まれないもの: 90 日間の mRS。

Ø 入院後の最初の画像検査のシリアル番号: 14 桁のコード。最初の 8 桁は年、月、日を表し、最後の 6 桁は連番です (注:時、分、秒ではありません)。シリアル番号は画像検査の唯一のコードであり、特定の画像検査時点は、 「付録 1 - 検索フォーム - シリアル番号と時間」で対応するシリアル番号から検索できます。

Ø年齢: 歳

Ø 性別: 男性/女性

Ø 脳出血前の mRS スコア: 0-6、順序変数

Ø 高血圧の既往歴: 1 はい、0 いいえ

Ø 脳卒中歴: 1 はい 0 いいえ

Ø 糖尿病の病歴: 1 はい 0 いいえ

Ø 心房細動の既往歴: 1 はい、0 いいえ

Ø 冠状動脈性心疾患の病歴: 1 はい 0 いいえ

Ø 喫煙歴: 1 はい 0 いいえ

Ø 飲酒歴: 1 はい、0 いいえ

疾患関連の特性、合計 2 つのフィールド。

Ø 血圧: 最高血圧/最低血圧。単位:mmHg

Ø 発症から最初の画像検査までの時間間隔:単位:時間

治療関連の特性、合計 7 つのフィールド。

Ø 心室ドレナージ: 1 はい 0 いいえ

Ø 止血処置: 1 はい 0 いいえ

Ø 頭蓋内圧を下げる治療: 1 はい 0 いいえ

Ø 降圧治療: 1 はい、0 いいえ

Ø 鎮静および鎮痛治療: 1 はい 0 いいえ

Ø 嘔吐防止と胃の保護: 1 はい 0 いいえ

Ø 栄養神経: 1 はい 0 いいえ

画像関連の機能、合計 84 フィールド/時点。

Ø 血腫と浮腫の体積と位置の情報は、「表 2 - 患者の画像情報血腫と浮腫の体積と位置」で取得されます。これには、血腫の総体積 (Hemo) と浮腫の総体積と差異 (ED) が含まれます。各時点でのポジションの割合。体積比の定義: 総体積に対するこの位置の血腫/浮腫の体積の割合値の範囲は 0 ~ 1 です。例: 0 はこの領域に血腫/浮腫が発生していないことを意味し、1 はこの患者のすべての血腫/浮腫がこの領域に発生していることを意味します。この位置の絶対体積は、割合を変換することで計算できます。この質問では、ユニバーサル テンプレートを使用して、左右の前大脳動脈 (ACA_L、ACA_R)、左右の中大脳動脈 (MCA_L、MCA_R)、左右の後大脳動脈 (PCA_L、PCA_R)、および左脳動脈を区別します。右側の橋/延髄 (Pons_Medulla_L、Pons_Medulla_R)、左右の小脳の合計 10 個の異なる位置 (Cerebellum_L、Cerebellum_R)。特定の位置と参照については、付録 2 - 関連概念を参照してくださいまとめると、総量:2フィールド(単位:10-3ml)、ポジション:20フィールド。各時点で、ボリュームと位置の特徴について合計 22 のフィールドがあります。

Ø 血腫と浮腫の形状とグレースケール分布は、「表 3 - 血腫と浮腫の患者画像情報の形状とグレースケール分布」の 2 つの異なるタブ ページに保存され、シリアル番号を通じて対応するデータを検索できます。各時点における血腫と浮腫の形状とグレースケールの特徴は、ターゲット領域 (17 フィールド) のボクセル信号強度の分布と 3 次元形状の記述 (14 フィールド) を反映しています。血腫と浮腫 浮腫の形状 + グレースケール分布特徴の合計 62 フィールドがあります。

注: 繰り返し画像データは実際の臨床状況に基づいて提供されており、繰り返し回数には個人差が生じる場合があります。

3. 次の質問をモデル化して答えてください。

1 血腫拡大のリスクに関連する要因の探索とモデル化。

a) 「表 1」(欄:入院後最初の画像検査の通し番号、発症から初回画像検査までの時間間隔)と「表 2」(欄:各時点の通し番号)に基づいて、sub001 から sub100 までの患者を判定してください。および対応する HM_volume) 血腫の拡大が発症後 48 時間以内に発生したかどうか。

結果充填仕様: 1 はい、0 いいえ、充填位置: 「表 4」のフィールド C (血腫拡大が発生するかどうか)。

血腫拡大事象が発生した場合は、血腫拡大が発生した時刻も記録してください。

結果充填仕様: たとえば、10.33 時間、充填位置: 「表 4」フィールド D (血腫拡大時間)。

血腫の拡大が起こるかどうかは  、血腫の体積の変化に基づいて判断できます。血腫の体積の変化は、最初の検査と比較して、その後の検査での絶対体積の 6 mL 以上の増加または相対体積の 33% 以上の増加として特に定義されます。

注:「付録 1 - 検索フォーム - シリアル番号と時間」のシリアル番号を使用して、対応する画像検査時点を照会し、開始から最初の画像検査までの時間間隔とその後の画像検査時間間隔を組み合わせて、次の画像検査時点を判断できます。現在の画像検査は数時間以内の病気の発症時のものです。

質問 1a の分析: 質問は表 1 と表 2 に基づいて、100 人の患者において発病後 48 時間以内に血腫拡大イベントが発生したかどうかを判断する必要があります。この質問は比較的単純です。まず、異常なデータをクリーニングした後、2 つのテーブルに対してデータ クリーニング操作 (データの前処理) を実行する必要があります。これで予測を行うことができるようになりました。予測には、Xgboost、ランダム フォレスト、SVM、その他のアルゴリズムなどの機械学習アルゴリズムを使用することをお勧めします。血腫の拡大の有無については明確に記載されており、発症から最初の画像検査までの時間間隔と、その後の画像検査の間隔を組み合わせて指標に含めるべきとの記載がある。ここで注意すべきは分類モデルなので、最後にしきい値を指定する必要があります。たとえば、予測結果が 0.7 の場合 (ここでは 0 ~ 1 の間の場合)、しきい値として 0.65 を選択できます。それを超えていれば1、つまり血腫拡大事象が発生していても判定することになるので、次の質問にも役立ちます。

最後に、モデルを評価して精度を評価する必要がありますが、ここでは ROC 曲線などを描画してモデルの精度を視覚化できます。

ここで、最初に特徴量エンジニアリングを行う方法についてヒントを示したいと思います。

1 データ クリーニング: これは最も基本的な手順であり、欠損値、外れ値、および誤ったデータの処理が含まれます。

2 特徴エンコーディング: カテゴリデータをモデルでの使用に適した形式に変換します。たとえば、線形回帰モデルの場合、カテゴリ変数はワンホット エンコードされる必要があります。

3 特徴スケーリング: これには標準化や正規化などの操作が含まれます。これにより、モデルのトレーニング中に、異なるスケールや単位の特徴が同じ影響を与えることが保証されます。

4 特徴の選択: 高次元データの場合、最も意味のあるサブセットを選択する必要があります。一般的に使用される方法には、フィルター方法、ラッパー方法、埋め込み方法などがあります。

5 特徴の構築: これには、新しい特徴の作成が含まれます。たとえば、既存の特徴に対して数学的演算 (加算、減算、乗算、除算など) を実行して新しい特徴を生成したり、ドメイン知識に基づいて特徴を作成したりすることが含まれます。

6 次元の削減: 特徴の次元が非常に大きい場合、データの次元を削減する必要がある場合があります。一般的に使用される次元削減手法には、主成分分析 (PCA) および t 分布確率的近傍埋め込み (t-SNE) が含まれます。

b 「表 1」の最初の 100 人の患者(sub001 ~ sub100)の個人歴、病歴、発症関連(フィールド E ~ W)およびその「表2」の画像検査の結果などの変数(フィールドC〜確率)。

注: この質問には、患者の最初の画像検査情報のみを含めることができます。

結果の記入仕様:イベント発生の予測確率を記録します(値の範囲は 0 ~ 1、小数点以下 4 桁を保持); 記入場所:「表 4」のフィールド E(血腫拡大の予測確率)。

質問 1b の分析: この質問は非常に単純です。A はすでに分類モデルを確立しています。つまり、分類が行われるかどうかです。前の質問で機械学習アルゴリズムを使用して分類モデルを作成する場合、たとえば、あなたのマシン学習アルゴリズムによって作成されました 数値は 0.7 です。分類する場合、0.7 は血腫拡大イベントとして分類されます。先ほど、0.6 などの適切なしきい値を選択するように言いました。ここで確率を計算する式は等尺性、0.5+0.5*(0.7-0.6)/1-0.6 = 0.5 + 0.125 = 0.625、つまり確率 62.5% です。

2. 血腫周囲の浮腫の発生と進行をモデル化し、治療介入と浮腫の進行との関係を調査します。

a) 「表 2」の最初の 100 人の患者 (sub001 ~ sub100) の浮腫量 (ED_volume) と繰り返し検査時点に基づいて、全患者の浮腫量の経時的な進行曲線を作成してください (x 軸: 時間)発症から画像検査まで y軸:浮腫量、y=f(x))、最初の100人の患者(sub001~sub100)の真の値と近似曲線との間に存在する残差を計算します。

結果の記入仕様:残差を記録し、「表 4」の F フィールド(残差(すべて))に記入します。

b) 患者の浮腫量の経時的な進行パターンにおける個人差を調査し、異なるグループ (サブグループ: 3 ~ 5) の経時的な浮腫量の進行曲線を作成し、最初の 100 人の患者 (sub001) の真の値と合計を計算してください。 sub100 まで) 曲線間の残差。

結果の記入仕様:残差を記録し、「表4」のG欄(残差(サブグループ))に記入し、セクションH(所属するサブグループ)にそれが属するサブグループを記入します。

c) 浮腫量の進行パターンに対するさまざまな治療法 (「表 1」の Q ~ W のフィールド) の影響を分析してください。

d) 血腫量、浮腫量と治療法との関係を解析してください(「表 1」の Q ~ W 欄)。

2-3 アイデア、コード、論文に関する質問は記事の最後にあります。

3. 出血性脳卒中患者の予後予測と重要な因子の探索。

a) 最初の 100 人の患者の個人歴、病歴、疾患関連 (「表 1」のフィールド E ~ W) および最初の画像結果 (表 2 および表 3 の関連フィールド) に基づいて予測モデルを構築してください (sub001)から sub100)、患者の 90 日間の mRS スコア (sub001 から sub160) を予測します。

注: この質問には、患者の最初の画像検査情報のみを含めることができます。

結果の記入仕様: 予測された mRS 結果、0 ~ 6、序数等級変数を記録します。「表 4」の I フィールド (予測された mRS (最初のイメージングに基づく)) の位置を記入します。

b) 最初の 100 人の患者 (sub001 から sub100) に関する表 2 および表 3 のすべての既知の臨床、治療 (表 1 の E から W のフィールド)、画像処理 (初回 + 追跡) の結果に基づいて、追跡調査が行われたすべての患者を予測します。画像検査(sub001からsub100、sub131からsub160)の90日mRSスコア。

結果の記入仕様: 予測された mRS 結果、0 ~ 6、序数等級変数を記録します。「表 4」の J フィールド (予測された mRS) の位置を入力します。

c) 出血性脳卒中患者の予後(90 日 mRS)とその個人歴、病歴、治療法、画像特徴(血腫/浮腫量、血腫/浮腫位置、信号強度特性、形状特性)、臨床的に関連する決定のための推奨事項を提供します。

4. 付属品

ü 表 1 - 患者リストと臨床情報.xlsx

ü 表 2 - 患者の画像情報量と血腫および浮腫の位置.xlsx

ü 表 3 - 患者画像情報: 血腫と浮腫の形状とグレースケール分布.xlsx

ü 表 4 - 回答ファイル.xlsx

ü 添付ファイル 1-検索フォーム-シリアル番号と時間の比較.xlsx

ü 添付 2 関連概念.docx 

各質問のアイデア、コード、説明ビデオ、論文、その他の関連コンテンツについては、下のカードをクリックして QR コードをスキャンできます。

おすすめ

転載: blog.csdn.net/weixin_43345535/article/details/133164168