2023 Huawei Cup 大学院数学モデリング コンペティション CDEF 質問アイデア + モデル コード

Huawei Cup Research CompetitionのCDEF質問アイデアモデルとコードはプロセス全体を通じて更新されており、記事の最後にある名刺を確認して入手してください。

Huawei Cup 質問 C のアイデアの分析

質問 1: 各審査段階では、通常、作品はランダムに配布され、各作品は複数の審査員による独立した審査が必要です。異なるレビュー専門家によって与えられたスコアの比較可能性を高めるために、異なる専門家によってレビューされた作品のコレクション間にある程度の重複がある必要があります。しかし、いくつかの交差点が大きい場合、いくつかの小さな交差点も存在するはずであり、比較可能性は低くなります。3,000の参加チームと125人のレビュー専門家の状況に基づいて最適な「クロス分散」計画を決定するための数理モデルを確立し、各作業を5人の専門家がレビューし、関連する指標(独自の定義)と実装の詳細を議論してくださいプランの

問題 1 には、主に、3,000 の参加チームと 125 人のレビュー専門家に対する最適な「クロスディストリビューション」計画を確立することが含まれます。ここで重要なのは、各作品が 5 人の専門家によってレビューされていること、および異なる専門家によってレビューされた作品コレクション間に一定の重複があることを確認することです。この問題は組み合わせ最適化問題とみなすことができ、グラフ理論モデルを使用してグラフの頂点カラーリング問題としてモデル化し、それを解くことで最適な「交差分布」解を得ることができます

私たちの変数はバイナリ変数 xij として定義されており、i 番目の専門家が j 番目の作業をレビューする場合は 1、それ以外の場合は 0 になります。

私たちの目的機能は、すべての専門家間の作業の交差サイズを最大化すること、つまり、

各作品はちょうど 5 人の専門家によってレビューされるという制約を与えます。特定の専門家が重すぎたり軽すぎたりすることを防ぐために、各専門家によってレビューされる作品の数は均等に配分される必要があります

これは NP 困難問題であり、遺伝的アルゴリズムやシミュレーテッド アニーリング アルゴリズムなどのヒューリスティック アルゴリズムを適用して解決できます。これらのアルゴリズムは、大規模な組み合わせ最適化問題の解空間を探索するのに適しており、妥当な時間内に満足のいく解を見つけることができます。

質問 2 は 、異なる査読者によって査読された作品集の学術レベルの分布が同じであると仮定した、査読の標準スコア (付録 1) に基づくランキング方法を使用します。しかし、大規模なイノベーションコンペの審査では、通常、2 人の専門家によって審査された作品のごく一部だけが共通しており、作品の大部分は異なっており (質問 1 を参照)、各専門家は 1 つの視点のみを参照します。したがって、標準的な部分評価スキームの仮定は有効ではない可能性があり、新しい評価スキームを検討する必要があります。既存または自作のレビュープランと問題添付データを2つ以上選択し、各専門家や各作品のオリジナルスコアと調整後のスコア(標準点など)の分布特性を分析し、異なるプランに応じて並べ替えてください。 、これらのオプションの長所と短所を比較してみてください。そこで、大規模イノベーションコンペの審査に向けて、新たな標準スコア(計算式)計算モデルを設計する。また、一般に複数の専門家が満場一致で同意した受賞論文が最も信頼性が高いと考えられており、別紙2のデータ1において、第2次審査で選出された最優秀賞作品の順位は以下の通りです。このデータのバッチは、標準スコアの計算モデルを改善するために使用してください。

質問 2 では、さまざまなレビュー スキームを比較および分析し、与えられたデータに基づいて新しい標準スコア計算モデルを設計します。記述統計や仮説検定などの方法を使用して、いくつかの既存のレビュースキームを分析し、これらのスキームの長所と短所を比較できます。平均、中央値、標準偏差などを使用して、各専門家および各作品の元のスコアと調整されたスコアの分布特性を分析します。さまざまなプラン間の違いをより直観的に理解できるように、さまざまなプランの下でのスコア分布視覚的に表示します。

さまざまなシナリオ間の違いが重要かどうかを判断するために、仮説検定手法を使用できます。ANOVA (分散分析) を使用して、複数のプログラムの平均スコアに有意な差があるかどうかを比較します。カイ二乗検定またはフィッシャーの直接確率検定を使用して、さまざまなプログラムでの成績分布の違いを比較します。

これらの分析結果に基づいて、新しい標準スコアの計算モデルを設計します。この問題に対しては、回帰分析の使用を検討できます。回帰分析の使用に加えて、最適な標準スコアの計算方法を解決するための最適化モデルを構築することもできます。このモデルの目的関数は、すべての作品の標準スコアの分散を最小限に抑え、異なるソリューション間の差を減らすことです。制約には、スコアリングの公平性の維持や、ある程度の多様性の維持などが含まれます。

質問3:  「イノベーション」コンペの特徴は「イノベーション」、つまり標準的な答えがないことです。このタイプの競争の問題は難しいため、一般に競争中に部分的に解決するイノベーションが必要です。作品の革新性の程度やその後の研究の見通しについて合意することは難しく、専門家同士が対面で意思疎通をしても、それぞれの意見があり統一できないこともある。さらに、大学院生の論文は表現が不十分であり、審査専門家の視点も異なるため、同じ研究について複数の専門家が与える結果は大きく異なります(非常に悪い)。大規模なイノベーションコンペティションは範囲が広いのが特徴で、範囲が比較的広い作品は一般的に上位か下位のカテゴリーに入る。低分割項目は除外範囲に属しますが、低分割項目で大きな差が出るのは、一部の専門家が規定違反や重大なミスのある作品に対して非常に低い点数を付けていることや、レビュー専門家が一致して「作品の質が低い」と認めていることが考えられます。仕事はそれほど高度ではありませんが、専門家の一人(一部)はこの仕事に同意していません。したがって、ここでの範囲は広いですが、受賞対象外の範疇であり、通常は調整する必要はありません。高度にセグメント化された作品は、より権威のある第 2 段階のレビューにも参加する必要があります (添付のデータ テーブルの同じ行は、2 段階の同じ作品の結果を表します。第 2 段階のレビュー スコアのない作品は、第 1 段階のみに参加します)レビューです。)第2段階の審査でも差が大きい作品がいくつかありますが、最終審査ですので誤差が受賞レベルに影響する可能性があるため、差が大きい作品については再検討・調整が必要となります(データは第2段階)添付ファイルが記録され、レビュー スコアは専門家のものです。最終的な標準スコアは、元の標準スコアを置き換えるために使用されます)。第 2 段階 (2 段階の各作業のレビュー専門家の数が異なることに注意してください) では、「広い範囲」を調整するための専門家のためのルールは、範囲モデルを確立するための参考として使用できます。  

質問に示されたシミュレーション データ 2.1 および 2.2 に基づいて、2 段階スコアの全体的な変化と 2 段階の極値の全体的な変化について議論し、以前と比較した 2 段階評価計画の長所と短所を分析してください。非段階評価計画。範囲が広いことと革新性が強いという 2 つの特徴の間には一定の関係があることに注意してください。革新的な論文を発見するには、「範囲」モデル (分析、分類、調整などを含む) を確立し、与えられた範囲を与えるようにしてください。データ 最初のレビュー段階は、高くない作品と低くない作品の「大きな違い」を処理するプログラムされた (手動介入なしの) 方法です。

質問 3 では、 2 段階の見直し計画と非段階的な見直し計画の比較、および「非常に悪い」モデルの確立に焦点を当てます2段階の性能変化とレンジ変化を分析し、「レンジが広い」場合の対応を模索する必要がある。

2 段階評価計画と非段階評価計画を比較するには分散分析 (ANOVA) を使用して、2 段階評価計画と非段階評価計画のスコアの差を比較し、スコアの差があるかどうかを検定できます異なる計画の下での平均スコアに大きな差があり、その差が使用されたレビュースキームに起因するかどうか

次に、平均、標準偏差、四分位範囲、その他の記述統計を計算して、2 つのプログラム間のスコア分布の違いをより詳細に理解できるようにします。これらの違いは、箱ひげ図やヒストグラムなどの視覚化ツールを通じて実証できます。

範囲モデルを構築するには、分類またはクラスタリングを使用できます。まず、分類モデルを使用して、作業の範囲サイズを予測しましょう。作品のさまざまな特性 (専門家からの予備スコア、作品の種類など) を入力することにより、分類モデルは作品の極端な差異が特定のしきい値を超えるかどうかを予測できます。アルゴリズムとしては、デシジョン ツリー、ランダム フォレスト、サポート ベクター マシンなどが使用できます。最後に、相互検証を使用して、最適なモデルとパラメーターを選択します。

クラスター分析を使用すると、同様の非常に悪い特性を持つ作品を同じカテゴリにグループ化することができます。クラスタリング アルゴリズムには、K 平均法クラスタリングまたは階層的クラスタリングを使用できます

Huawei Cup の質問 D のアイデアの分析

質問1: 地域の炭素排出量、経済、人口、エネルギー消費の現状分析

(1) 指標及び指標体系の確立

要件 1: 指標は、特定の地域の経済、人口、エネルギー消費、炭素排出量を説明できる。

要件2:指標は各部門(エネルギー供給部門、産業消費部門、建設消費部門、運輸消費部門、家庭消費部門、農林消費部門)の炭素排出状況を説明できること。

要件 3: インジケーター システムは、主要なインジケーター間の相互関係を説明できる。

要件 4. 一部の指標の変化 (前年比または前月比) は、炭素排出量予測の基礎となる可能性があります。

インジケーターの選択については、次のことを考慮できます。

経済指標:地域の経済状況を測る主な指標として、地域の経済発展の度合いや経済活動の活発さを総合的に反映できるGDP成長率が選定されています。

人口指標: 総人口と人口増加率は、人口の状況を評価するための重要な指標であり、地域の人口規模と増加率を反映し、エネルギー消費と炭素排出量に直接影響します。

エネルギー消費指標: 総エネルギー消費量とエネルギー消費構造 (化石エネルギーと非化石エネルギーの比率) は、エネルギー消費を測定するための重要な指標であり、炭素排出量の規模と構造に直接影響します。

炭素排出指標:総炭素排出量、GDP単位当たりの炭素排出量、各部門の炭素排出量は、炭素排出状況を評価する主な指標であり、地域の炭素排出レベルと構造を包括的に説明できます。

部門区分:地域全体をエネルギー供給部門、工業消費部門、建設消費部門、運輸消費部門、家庭消費部門、農林消費部門に分け、各部門のエネルギー消費量と炭素排出量を独立して分析する。

指標を選択した後、これらの指標間の関係モデルを確立する必要があります。ここでは、炭素排出量を従属変数として、残りの指標を独立変数として使用する重線形回帰モデルを使用して、それらの間の数学的関係を確立できます。たとえば、GDP 成長率、人口増加率、エネルギー消費構造が炭素排出量に及ぼす影響を調査し、それらの間の感度と弾力性を分析できます。選択した指標については、前年比および前月比の変化が計算され、これらの変化は炭素排出量予測の基礎として機能します。ある年にエネルギー消費が大幅に増加すると、その年の二酸化炭素排出量も増加する可能性があります。これらの変化を分析することで、各指標が炭素排出量に及ぼす影響をより深く理解できるようになります。

(2) 地域の炭素排出量、経済、人口、エネルギー消費の現状を分析する

要件 1: 2010 年を基準期間として、特定地域の第 12 次 5 か年計画 (2011 ~ 2015 年) と第 13 次 5 か年計画を分析する

期間中(2016年~2020年)の炭素排出状況(総量、変化傾向等)

要件 2: 地域の炭素排出に影響を与える要因とその寄与を分析する。

要件 3: カーボン ピーキングとカーボン ニュートラルを達成するために地域が直面する必要がある主な課題を分析および決定し、地域のデュアル カーボン (カーボン ピーキングとカーボン ニュートラル) パス計画において差別化されたパス選択の基礎を提供する。

既存の履歴データを使用して、2010 年から 2020 年までの地域の炭素排出量、経済成長、人口増加、エネルギー消費の変化する傾向と状況を分析できます。グラフ化や成長率の計算などの方法を通じて、これらの指標の発展の軌跡を明確に把握することができ、それによってこの地域の現在の炭素排出量を予備的に把握することができます。次に、さまざまな指標の変化が炭素排出量に及ぼす影響を分析し、炭素排出量増加の主な推進要因を見つけます。

モデルの場合、相関分析や回帰分析などの統計的手法を使用して、炭素排出量に対する各要因の寄与を定量化できます。炭素排出量に対する経済成長の寄与を分析し、経済発展が炭素排出量増加の主な理由であるかどうかを判断できます。

もちろん、政府の政策や技術の進歩など、炭素排出量の変化に影響を与える他の外部要因もあります。現状の分析と影響要因の理解に基づいて、この地域でカーボンピークとカーボンニュートラルを達成する際の主な課題を予測できます。エネルギー構造調整の困難、非化石エネルギー開発の制限、経済発展と炭素排出削減との矛盾など。

(3) 地域の炭素排出量、経済、人口、エネルギー消費指標とその相関モデル

要件 1: 関連する指標の変化 (前月比および前年比) を分析する。

要件 2: さまざまな指標間の関係モデルを確立する。

要件3:関連指標の変化に基づき、デュアルカーボン政策や技術進歩などの複数の効果と組み合わせて、炭素排出予測モデルパラメータの値(エネルギー利用効率の向上や非化石エネルギーの割合など)を決定する消費量など)。

各指標の現状と影響要因を分析した後、各指標間の相関モデルを確立する必要があります。ここでは、重回帰や主成分分析などの手法を使用して、履歴データに基づいてさまざまな指標間の数学的関係を当てはめることができます。

炭素排出量を従属変数、GDP、人口、エネルギー消費量などを独立変数とし、回帰分析によりそれらの間の線形モデルと非線形モデルを構築しますこれは、さまざまな指標間の相互作用を理解するのに役立ちます。相関モデルを確立したら、モデル内のパラメーターを決定する必要があります。これらのパラメータには、エネルギー利用効率、非化石エネルギー消費の割合などが含まれます。これらはモデルの中核コンポーネントであり、モデルの予測効果に直接影響します。

質問 2: 地域の炭素排出量、経済、人口、エネルギー消費の予測モデル 

(1) 人口動態や経済変動を踏まえたエネルギー消費量予測モデル

要件 1: 2020 年を基準期間として、中国式近代化の 2 つのタイムノード (2035 年と 2050 年) を組み合わせて、人口、経済 (GDP) の変化、エネルギー消費量を予測します。

要件 2: エネルギー消費は人口予測に関連付けられています。

要件 3: エネルギー消費は経済 (GDP) 予測に関連付けられています。

Huang Fuang モデルは、将来の人口規模を予測するために選択できますこのモデルでは、出生率や死亡率などの要因の影響が考慮されます。

Pt+1 = Pt + Bt - Dt + It - Et

また、対数線形モデルやロジスティック モデルなどの人口予測モデルを地域の過去の人口データと組み合わせて使用​​し、将来の人口変化傾向を予測することもできます。もちろん、出生率、死亡率、移住率など、影響を与える可能性のある要因を考慮する必要があります予測プロセス中、予測結果の精度を確保するためにモデル パラメーターを継続的に調整する必要があります。

経済(GDP)予測では、時系列分析や重回帰分析などの手法を国のマクロ経済政策や世界経済情勢などと組み合わせて、地域の将来の経済発展傾向を予測することができます。

G(t) = G0 / [1 + ae^(-bt)]

エネルギー消費量の予測は、予測される人口データや経済データと組み合わせる必要があり、共積分分析や因果モデルなどの手法を使用して将来のエネルギー消費量を予測する必要があります。

E(t) = c1P(t) + c2G(t) - c3*E'(t)

(2) 地域炭素排出量予測モデル

要件 1: 炭素排出量は人口、GDP、エネルギー消費の予測に関連しています。

要件2:炭素排出量と各種エネルギー消費部門(産業消費部門、建設消費部門、運輸部門)

消費部門、家庭消費、農林消費部門)およびエネルギー供給部門(上記のエネルギー消費部門における総エネルギー消費量の分布に対するエネルギー効率改善の影響の反映など)。

要件3:エネルギー消費部門ごとの炭素排出量とエネルギー消費形態(一次エネルギー)(同上)

化石エネルギー消費量は、非化石エネルギー消費量と二次エネルギー(電気または熱)消費量)およびエネルギー供給部門におけるエネルギー消費の種類(化石エネルギー発電と非化石エネルギー発電)に関連しています(例えば、非化石エネルギー消費の割合の増加が各分野に与える影響、部門別のエネルギー消費タイプまたは炭素排出係数の影響)。

まず炭素排出量と人口、GDP、エネルギー消費との関係モデルを確立する必要があります。ここでは、炭素排出量を従属変数として、人口、GDP、エネルギー消費を独立変数として使用して、それらの間の関係を当てはめる重回帰分析の使用を検討できます。その後、人口、経済、エネルギー消費が炭素排出量に与える影響を定量化し、炭素排出量の将来の変化を予測できます。

また、各部門のエネルギー消費の影響やエネルギー消費構造等を考慮して、エネルギー消費部門(産業、建設、運輸等)ごとに炭素排出量予測モデルを構築する必要がある。

非化石エネルギー消費の割合の増加が、さまざまな部門のエネルギー消費タイプまたは炭素排出係数に与える影響を分析します。そのためには、非化石エネルギーの炭素排出特性とそのさまざまな分野での応用について、徹底的な研究を行う必要があります。非化石エネルギー消費の割合を増やすことによる排出削減効果を評価する

最後に、モデルを検証して、その予測能力と精度をテストする必要もあります。モデルの予測結果が実際のデータと一致する場合、モデルは有効ですが、一致しない場合はモデルを調整する必要があります。

質問Eのアイデアの分析

  1. 血腫拡大リスクに関連する要因の探索的モデリング。

「表 1」(フィールド:入院後最初の画像検査のシリアル番号、発症から最初の画像検査までの時間間隔)および「表 2」(フィールド:各時点のシリアル番号と対応する HM_volume)を使用して、入院後の判断を行ってください。患者の発症 sub001 ~ sub100 血腫拡大事象が 48 時間以内に発生したかどうか。

結果充填仕様: 1 はい、0 いいえ、充填位置: 「表 4」のフィールド C (血腫拡大が発生するかどうか)。

血腫拡大事象が発生した場合は、血腫拡大が発生した時刻も記録してください。

結果充填仕様: たとえば、10.33 時間、充填位置: 「表 4」フィールド D (血腫拡大時間)。

血腫の拡大が起こるかどうかは、血腫の体積の変化に基づいて判断できます。血腫の体積の変化は、最初の検査と比較して、その後の検査での絶対体積の 6 mL 以上の増加または相対体積の 33% 以上の増加として具体的に定義されます。

注:「付録 1 - 検索フォーム - シリアル番号と時間」のシリアル番号を使用して、対応する画像検査時点を照会し、開始から最初の画像検査までの時間間隔とその後の画像検査時間間隔を組み合わせて、次の画像検査時点を判断できます。現在の画像検査は病気の発症時であり、数時間以内です。

「表1」から「入院時初回画像検査の通し番号」と「発症から初回画像検査までの時間間隔」を抽出する。

「表 2」から各時点の「シリアル番号」とそれに対応する「HM_volume」を抽出します。「付録 1 - 検索フォーム - シリアル番号と時間」を使用して、各シリアル番号に対応する画像検査時点をクエリします。

各患者について、発症から 48 時間以内のすべての画像検査を特定します。これらの画像検査の「HM_volume」を最初の画像検査の「HM_volume」と比較して、血腫拡大の条件(絶対容積増加 ≥6 mL または相対容積増加 ≥33%)が満たされているかどうかを判断します。血腫の拡大が発生した場合は、その発生時間が記録され、そうでない場合は、血腫の拡大は発生していないとマークされます。

「表1」の最初の100名(sub001~sub100)の病歴、病歴、発症関連(フィールドE~W)および画像に基づいて、血腫拡大イベントの発生の有無を目的変数としてご利用ください。検査結果は「表 2」にあります (フィールド C から確率まで)。

注: この質問には、患者の最初の画像検査情報のみを含めることができます。

結果の記入仕様:イベント発生の予測確率を記録します(値の範囲は 0 ~ 1、小数点以下 4 桁を保持); 記入場所:「表 4」のフィールド E(血腫拡大の予測確率)。

まず特徴選択を行い、患者の病歴、病歴、疾患関連の特徴を「表1」から選択します。初回画像検査の該当する特徴を「表2」「表3」から選択してください。

その後、分類に機械学習手法を使用できます。ここでは、ロジスティック回帰、サポート ベクター マシン、ランダム フォレスト、勾配ブースティングなど、多くのモデルが利用できます。これらのモデルを使用して相互検証とパラメーター調整を行い、最適なものを選択しますモデルとパラメータ。

最初の 100 人の患者のデータをモデル トレーニングのトレーニング セットとして使用します。相互検証手法を使用してトレーニング セット上のモデルのパフォーマンスを評価し、モデルの精度、再現率、F1 スコアなどを調べます。最後に、すべての患者 (sub001 ~ sub160) の血腫拡大の確率を予測します。

  1. 血腫周囲浮腫の発生と進行をモデル化し、治療介入と浮腫の進行の関係を調査します。
    1. 「表 2」の最初の 100 人の患者の浮腫量 (ED_volume) と繰り返し検査時点 (sub001 ~ sub100) に基づいて、すべての患者の経時的な浮腫量進行曲線を作成してください (x 軸: 発症から画像化までの時間)検査、y 軸: 浮腫量、y=f(x))、最初の 100 人の患者 (sub001 から sub100) の真の値と近似曲線の間の残差を計算します。

結果の記入仕様:残差を記録し、「表 4」の F フィールド(残差(すべて))に記入します。

最初の 100 人の患者の浮腫量 (ED_volume) と再検査時点を「表 2」から抽出しました。これらのデータ ポイントを使用して、浮腫量の時間の経過に伴う変化を表します。つまり、Y 軸は浮腫量、X 軸は発症から画像検査までの時間です。

時間の経過に伴う浮腫量の変化に適合するために、多項式回帰、非線形回帰などの適切な回帰モデルを選択できます。次に、最小二乗法などの方法を使用してモデル パラメーターを最適化し、モデルがトレーニング データによりよく適合できるようにします。

各患者について、適合モデルを使用して浮腫量を予測し、実際の浮腫量と比較し、残差を計算しました。各患者の残差を記録し、残差の分布を分析して、最終的にモデルのフィッティング効果を評価します。

    1. 患者の浮腫量の経時的な進行パターンにおける個人差を調査し、さまざまな集団 (サブグループ: 3 ~ 5) について経時的な浮腫量の進行曲線を作成し、真の値と最初の 100 人の患者の曲線との差を計算してください。 (sub001 から sub100) の残差。

結果の記入仕様:残差を記録し、「表4」のG欄(残差(サブグループ))に記入し、セクションH(所属するサブグループ)にそれが属するサブグループを記入します。

母集団をグループ化することは明らかにクラスタリングの問題であり、患者間の違いを反映して患者をサブグループに分類するのに役立つ一連の特徴を選択する必要があります。これらの特徴には、臨床情報(年齢、性別、病歴​​など)、治療法、初診時の画像特徴などが含まれる場合があります。選択した特徴を標準化または正規化し、クラスタリングを開始します。ここでは、kmeans クラスタリングを使用して 3 ~ 5 個のクラスタを分割し、シルエット係数やデイビス ボールディン指数などの指標に基づいてクラスタリング効果を評価できます。

次元を削減するには主成分も必要であり、PCA を通じて、患者間の主な違いを表す可能性のあるデータの変動の主な方向を見つけることができます。主成分スコアに基づいて、患者をさまざまなサブグループに分類できます。患者のサブグループごとに、カーブ フィッティングが個別に実行され、経時的な浮腫量の変化特性に基づいて適切な回帰モデルが選択されます。浮腫量の変化は非線形である必要があり、多項式回帰とカーネル回帰がより適切な選択肢となる可能性があります。

残差の計算も実行され、各患者について、真の浮腫量とモデルが予測した浮腫量の間の残差が計算されます。残差の分布を分析し、残差が正規分布しているかどうか、不均一分散があるかどうかなど、モデルの仮定が確立されているかどうかを確認します。

    1. 浮腫量の進行パターンに対するさまざまな治療法 (「表 1」の Q から W のフィールド) の影響を分析してください。

この質問では、グループとして異なる治療法を使用し、従属変数として浮腫量を使用して ANOVA を実行できます。

ANOVA 結果がグループ間で有意な差を示した場合は、Tukey HSD などのさらに複数の比較を実行して、どのグループが有意に異なっているかを確認できます。

浮腫量に影響を与える可能性のある他の変数 (患者の年齢、性別など) がある場合、これらの変数を ANCOVA モデルの共変量として含めることができます。治療と浮腫量の変化の間の線形または非線形の関連は、ピアソンまたはスピアマンの順位相関係数を使用して相関係数を計算することによって評価できます。

治療法を独立変数、浮腫量を従属変数とした回帰モデルを確立し、両者の因果関係を確認します。

    1. 血腫量、浮腫量と治療法(「表1」のQ~Wの欄)との関係を解析してください。

この質問については、まず、点双系列相関係数、スピアマン相関係数などを使用して、血腫量、浮腫量と治療方法の間のペアごとの相関関係を計算できます。相関係数の絶対値は、変数間の関係を表すことができます。それらの間の相関の強さを示し、正と負の符号は相関の方向を示します。

次に、血腫量と浮腫量を従属変数として、治療法を独立変数として使用して多因子回帰モデルを構築し、血腫と浮腫量に対する治療法の影響を調査します。

モデルの全体的な重要性、各変数の重要性、モデルの説明力 (R² など) など、モデルの適合性を確認します。

質問Fのアイデアの分析

1. 二重極性変数を効果的に適用して厳しい対流予測を改善する方法は、現在の天気予報において依然として重要かつ困難な問題です。質問で提供されたデータを使用して、厳しい対流ナウキャスティングの二重偏波レーダー データから微物理的特徴情報を抽出できる数学的モデルを確立してください。ナウキャスティングの入力は、前 1 時間 (10 フレーム) のレーダー観測 (ZH、ZDR、KDP) であり出力の 1 時間 (10 フレーム) のZH予報です。

この問題に対しては、深層学習モデル、特にLSTM や GRU などの時系列モデルを使用してレーダー観測データ シーケンスを処理することを検討できます。入力は過去 1 時間のレーダー観測 (ZH、ZDR、KDP) であり、出力は次の 1 時間の ZH 予報です。モデルは多層 RNN 構造として設計でき、各層がさまざまなレベルの特徴を学習し、最終的に予測 ZH 値を出力します。

2. 現在の一部のデータ駆動型アルゴリズムは、強い対流予測を行うときに平均に近い予測を生成する傾向があります。つまり、「平均への回帰」問題があるため、予測は常に不鮮明になる傾向があります。質問 1 に基づいて、予測のぼやけの影響を軽減し、予測されるレーダー エコーの詳細をより完全かつ現実的なものにする数学的モデルを設計してください。

「平均への回帰」問題を軽減するには、モデルのトレーニング中にドロップアウトなどのいくつかの正則化手法を導入して、モデルの過学習を防ぐことを検討できます。さらに、ベイジアン ニューラル ネットワークなどを使用して、モデル予測の不確実性推定を追加できます。モデルは予測値を与えるだけでなく、予測の信頼性を正確に評価するためにこの予測値の不確実性も与えます

3.質問で提供されたZ H、Z DR、降水量データを使用して適切な数学モデルを設計し、Z H とZ DR を使用して定量的な降水量推定を行ってください。モデルの入力はZ H とZ DR で、出力は降水量です。(注: このアルゴリズムではK DP 変数を使用できません。)

線形回帰モデルを使用して降水量を推定できます。入力フィーチャは ZH と ZDR です。モデルは次のような形式になります。

その他のアイデアについては、以下の名刺をご覧ください。

おすすめ

転載: blog.csdn.net/zzzzzzzxxaaa/article/details/133191293