デジタル医療アルゴリズム アプリケーション イノベーション コンテスト - 食品と病気の関係予測アルゴリズムのトップ 5 ソリューション共有トラック

1. 競技会場と背景

1.1 コンテストの演説

コンテストのアドレス

1.2 データの説明とタスク

このアルゴリズムコンテストでは、200を超える食品の特徴と3つの異なる方法で抽出された疾患の特徴を含む23.5Wを超える食品、疾患の対応とその定量的スコアが提供され、4000を超える特徴情報が蓄積されます。予選は 0,1 の 2 値分類予測で、食品、疾患の特徴、および食品疾患との関係ラベルを提供します。
病気の特徴
ここに画像の説明を挿入
食べ物の特徴
ここに画像の説明を挿入

1.2.1 予備ラウンドのタスク

このトラックでは、減感作された食品と病気の特徴が提供されます。主催者が提供するデータによると、参加チームはさらにマイニングし、特徴を統合し、非常にまばらなデータシナリオでモデルを設計し、食品と病気の関係を予測します。準備段階は二項分類問題であり、分類ラベルは 0 (無関係) と 1 (プラスまたはマイナスの影響) です。
ここに画像の説明を挿入

1.2.2 再戦タスク

予選の結果をもとに、食品と病気の相関関係の評価次元の評価が追加されます。
再試合段階では、0と1の二値分類と相関評価が同時に評価され、元のトレーニングセットに食中毒相関評価のラベルデータが追加されます。
ここに画像の説明を挿入

実際にはまだ 2 つのカテゴリですが、評価では関連性の順序が考慮されます

3. 一般的なアイデアの共有

予選は比較的シンプルでした。基本的にはベースラインをベースにパラメータを調整し、それを準決勝に混ぜ込みました
。準決勝では一部の作業を行いました。主な内容の共有は以下のとおりです

3.1 全体的なプロセス

ここに画像の説明を挿入
全体のプロセスを図に示します.
ガウス クラスタリング, PCA, 特徴グループ導出, LightGBM などの手法が主に使用されます.
ツリー モデルは欠損値を処理できますが, 0 を埋めることで複数の点が改善されることがわかります.は匿名の機能なので、ここでは使用しません。
さらに、オンラインとオフラインの間には大きなギャップがあり、過剰適合が起こりやすくなります。

3.2 ガウスクラスタリング

ガウス クラスタリングの考え方とプロセスは次のとおりです。
ここに画像の説明を挿入
データの特性: すべての特徴が感度を下げられています。食品の特徴の欠落率が高く、3つの疾患の特徴の次元が高く、疾患の数が異なり、全体の状況はより複雑です。
食品のガウス クラスタリング: テスト セット内の食品は新しいデータであり、トレーニング セットには表示されないため、クラスタリング アルゴリズムを使用してラベルを付けたいと考えています。このようにして、食品のカテゴリラベルが得られる。次の特徴マイニングにも便利です。具体的な方法は、欠損率が低い列 (<10%) を見つけて、これらの列の欠損値を埋めることです (一部の特徴値には 0 があり、混同しやすいため -1)。 ガウス分布疾患のクラスタリング:
疾患の特徴 データは固定されていますが、疾患カテゴリに関する詳細情報を取得するために、クラスタリング アルゴリズムを使用して疾患をいくつのカテゴリに分割できるかを調べたいとも考えています。

3.3 特徴マイニング

一般的な考え方は次のとおりです。
ここに画像の説明を挿入
グループ統計機能
トレーニング セット内の各食品グループと疾患の間の相関関係の統計 (平均、標準偏差、歪度、尖度) を計算します。
トレーニング セット内の食品と各疾患 ID の関連性に関する統計 (平均、分散、歪度、尖度) を計算します。
特徴交叉
LGBM の特徴重要度に従い、最も重要度の高い特徴に対して特徴交叉を行いますが、再試合では交叉過学習が深刻なため、上位 5 つの特徴 (食品特徴) のみを乗除交叉に選択します。

3.4 試した他の方法

クラスタリング手法: K-means クラスタリング、階層クラスタリングなど。最も効果的なのはガウス クラスタリングです。
次元削減方法: スパース PCA はわずかに優れていますが、より多くのリソースを消費し、他の方法 (tsvd など) は置き換え後の効果がわずかに低下します。一般的に言えば、その差は大きくありません。
グループ化特性統計量: 最大値、最小値、範囲、中央値など。
その他のグループ化: クラスタリング後に疾患のカテゴリをグループ化して計算しようとするが、効果はあまり良くない
特徴クロスオーバー: 予選でクロス項目として food_id を使用した効果は良いが、オンラインとの差が大きいオフラインでの再戦。
機能の重要度: 機能の重要度が低いいくつかの機能を削除しようとすると、効果は良くありません。
モデル選択:XGB、Catboostなどですが、実験したところ初期効果が悪く、パラメータを多少調整しても改善されませんでした。
モデル融合: 他のモデルの効果が比較的低いため、モデル融合 (スタッキングなど) の効果は良くなく、モデルが比較的大きくなります。

3.5 未試行のアイデア

食べ物と病気の相関関係:
食べ物と病気は同じカテゴリに属さないため、特徴抽出方法も異なり、データ間にも差異が生じます。
実際には、複数のテーブルをスプライシングした後、食品疾患の特徴が融合され、最終的に相関関係であるスコアが得られます。
このコンペティションでは、ほとんどのnnモデルも最初にスプライスと融合が行われ、計算が実行され、オンラインとオフラインの間には大きな差があります。モデルの隠れ層がより多くの特徴間情報を提供し、その結果深刻な過剰適合が発生する可能性があります。
したがって、ツインタワー モデルのほうが実際にはうまく機能する可能性があります。
ツインタワー モデルでは、次の制約を課すことにより、より良い結果が得られる可能性があります。
1. 主に、異なる特徴抽出方法によって引き起こされる、食品と病気の特徴の間の差異を排除します。L2 ノルムは、特徴行列の距離、敵対的学習などを最小限に抑えます。
2. 公開特徴空間内の特徴距離をスケーリングし、相関を使用して特徴距離を縮小し、相関を使用せずに特徴距離を拡大します 3.
その他の制約。
クロスモーダル検索
食べ物と病気

4. コード共有

Hejing コミュニティ:クリックしてジャンプ
github:クリックしてジャンプ
役に立ったと思ったら、フォークして褒めていただけます

おすすめ

転載: blog.csdn.net/zzpl139/article/details/130494791