2022年四川省大学生金融技術モデリングコンテスト-実際の中国建設銀行データセットに基づくモデルの複製とコメント-紙の複製

年末はモデルカスタマイズサービスが多く、記事の更新が比較的遅くなります。最近の注目のスポットは、四川省大学生金融テクノロジーモデリングコンテストです。何人かの学生がモデルのパフォーマンスを向上させる方法を私に尋ねてきました。もちろんどれも素晴らしいものばかりなので、私がお手伝いできることはほとんどないので、統一的に皆さんにお答えする記事を書きたいと思います。以下にモデルコンペの内容を紹介します。
コンテストの紹介
1. コンテストの背景

成都は、新たな経済建設を背景に、金融テクノロジーの発展に重点を置き、国の西部金融センターの建設を加速しており、「成都金融テクノロジー発展計画(2020~2022年)」を提案し、それを発展途上国に構築している。国際的な影響力を持つ地域金融テクノロジーセンター。四川省教育局の強力な支援を受けて、西南財経大学は新しい金融コンテスト、第3回「四川省大学生金融技術モデリングコンテスト」を実施しました。

第1回「四川大学生金融技術モデリングコンテスト」には、西南財経大学、中国電子科学技術大学、成都情報工学大学、西南交通大学、四川農業大学、四川大学から合計575名が参加しました。 、西華大学、成都師範大学、西安ユーラシア 同大学を含む省内外の大学11校の学生がコンテストに登録した。予選大会の上位100名には学部生52名、大学院生48名が選ばれた。コンテストの参加者は幅広く、各段階の学生が積極的に参加していたことがわかります。予選、準決勝での激戦の末、最終的には西南財経大学、成都情報工学大学、中国電子科学技術大学、四川大学、四川農業大学、成都東軟大学が1位、2位、3位を受賞した。総合ランキング上位10名は最終決戦に招待され、「新王銀行特別賞」を争う。

第 2 回コンテストには、予選段階で合計 502 名が登録し、実際にコードを提出した 327 名が参加し、そのうち四川省内の大学からは 281 名、四川省外の大学からは 46 名が参加し、良好な省間交流を図りました。初戦以来の影響力、勢い。予選大会の上位10大学は、西南財経大学、四川農業大学、成都情報技術大学、中国電子科学技術大学、吉利大学、西華大学、四川大学、華東師範大学、上海である。交通大学と重慶郵電大学。予選ラウンドの出場者の上位50%が準決勝に進み、25の大学と54の専攻が含まれ、準決勝では馬天豪ら上位75名が優勝、準優勝、三位を獲得した。四川省で。第2回大会には、県内外から多くの学部生・大学院生が参加し、優秀な成績を収めました。

今年の「四川省大学生金融テクノロジーモデリングコンテスト」は四川省内外の大学のフルタイムの学部生と大学院生を対象としており、金融業界におけるリスク管理と統制の問題を提案し、参加者は感度を下げたデータを使用して、モデリングプロセスを完了し、ソリューションを提示します。コンテストを通じて、参加者は金融テクノロジー業界の最先端のトピックに触れ、学んだことを応用し、実践的な問題を解決するための総合力と知識応用力を養うことができます。
2. 競技概要

お客さまのお申込み情報やローン商品情報をもとに、統計や機械学習のアルゴリズムを用いて、お客さまの返済行動(繰り上げ返済の有無)を効果的かつ正確に把握します。申込情報には、融資前の顧客の基本情報や信用情報が含まれ、ローン商品の情報には、ローンの商品情報が含まれる。このコンテストでは、トレーニング セットとテスト セットが提供されます。モデル構築の最終目標は、モデルの返済予測を実際の返済行動にできるだけ近づけることです。モデルの予測能力は、テスト セットの AUC 値のパフォーマンスによって測定されます。主催者は、未公開のテスト セットの良いラベルと悪いラベルを通じて、出場者のモデル AUC 結果を計算し、ランク付けします。

このコンテストのすべてのデータは、四川新王銀行から提供された感度を下げたデータです。
3. スケジュール

コンテストの主催者は結果を提出するためのプラットフォームを提供しますが、プラットフォームの言語は制限されません。ゲームの全プロセス中、プレイヤーはゲーム コードと予測結果をプラットフォームに送信する必要があります。

大会は登録、予選、準決勝、審査、決勝の5つのリンクから構成されます。

(1) 競技登録:(9月26日~11月13日)

コンテストは9月26日から11月13日まで登録システムを開始し、出場者は9月26日から11月6日までにコンテストプラットフォーム上で登録を完了し、コンテストに参加するにはプラットフォーム上で登録する必要があります(詳細は登録方法を参照してください。コンテスト担当者)通信グループファイル)。

(2) 予選:(10月25日~11月13日)

コンテストが正式に開始され、出場者はコンテストのプロセスを開始し、プラットフォームからデータセットとコンテストの質問を取得します。プレイヤーは自分の環境でモデリングと計算のプロセスを完了する必要がありますが、プラットフォームの要件に従ってゲームコードとモデリング結果を提出する必要があり、バックグラウンドは提出されたモデリング結果に基づいてリアルタイムのランキングを発表します。予選中、出場者には毎日 5 回結果を提出する機会があります。

(4)再戦:(11月15日~11月21日)

その結果、出場者の上位 50% に準決勝に参加する資格が与えられ、準決勝に進出した出場者は、指定された期間内にモデルとコードの最適化を完了し、競技プラットフォームに提出する必要がありました。準決勝の様子。

(5) 振り返り:(11月22日~11月24日)

審査員はコードの標準化とモデリング結果の総合評価を採点し、1 位、2 位、3 位の受賞者を審査します。同時に、優勝者には決勝戦への参加資格が与えられ、再戦審査終了後、適時に決勝進出者リストがプラットフォーム上で発表されます。

(6) 決勝:(11月26日予定)

決勝戦では出場者への質疑応答を防衛形式で行い、具体的な形式については別途通知する。審査員は出場者のコードとモデルについて専門的な質問をします。審査では、出場者のモデリング思考やモデル応用能力が審査され、総合的に考慮した上で大賞受賞者が決定されます。最終的なスコアは、準決勝のレビュースコアとディフェンススコアを重み付けして取得されます。

(上記時間は最新の公式発表により変更される場合があります)
4. 参加ルール

(1) 参加団体:四川省内外の大学の正規学部生および大学院生。

(2) 登録方法:出場者はコンテストプラットフォーム(https://match.creditscoring.cn)上で登録を完了し、コンテストにサインアップする必要があります。

(3) 参加方法:

1) 本コンテストは個人エントリーとなります。

2) 出場者は、学校、学年、学籍番号、氏名、携帯電話番号等を入力して大会に登録し、登録が完了すると大会に参加することができます。
5. 選考ルール

(1) 審査にあたっては、作品の科学性、先進性、実用的意義、実用的価値を基本的な判断基準とします。

(2) 評価にあたっては、学部(専門)学生と大学院生の知識レベルや学術研究能力の差異を総合的に考慮するものとする。

(3) コンテストの各リンクの締め切りまでに、すべての資格のある参加者によって提出された作品が審査されます。コンテスト主催者は、締め切りを過ぎて応募された作品の審査は行わないものとし、コンピュータ、インターネット、モバイルネットワークの障害による損害、紛失、応募の遅延、その他の結果については、主催者は一切の責任を負いません。

(4) 予選では、出場者の順位を正規変換した値に基づいて得点を計算します。

準決勝進出者は、提出されたコードを審査要項に基づき審査員が採点し、準決勝得点は、準決勝順位スコア80%+コードスコア20%となります。最終的なランキングスコアは予選ステージと同じです。

1位を獲得した上位者は防衛戦の決勝戦に招待され、「新王銀行特別賞」を争う。

決勝ステージに進出した出場者は、決勝会場で審査員が最終審査ルールに基づき、準決勝得点の60%+守備得点の40%で守備得点を評価します。防御スコアは全ジャッジのスコアの平均によって求められます。

(5) 審査員による審査結果が出た時点で最終結果とし、審査員による作品の評価は行いません。

(6) 競技固有データの結果は主な採点基準として使用され、その解釈権は競技組織委員会に帰属します。
6. 賞の設定

(1) 基本賞

優勝賞品:準決勝結果上位15%、賞状

準優勝:準決勝結果上位15~30%、賞状

3位:準決勝成績上位30~50%、賞状

(2)「新王銀行」特別賞

新王銀行特別賞:1位、ボーナス6,000元

新王銀行優秀賞:2位、賞与4,000元

新王銀行栄誉賞:3位、賞与3,000元

新王銀行優秀賞:4位~10位、ボーナス1,000元
7. 参加規約

1. 応募作品はそのオリジナリティを保証しなければならず、作品は中華人民共和国の関連法に違反してはならず、第三者の知的財産権やその他の権利を侵害してはならず、権利所有者によって発見または確認され次第、コンテスト主催者は以下の措置を講じます。その資格を取り消します。

2. コンテスト主催者は、以下の場合、出場者の資格及び結果を取り消すことがあります。

(1) 提出された申請内容に不備があり、または虚偽の記載があった場合。

(2) 中華人民共和国の関連法令に違反する行為。

(3) 不正行為および他人の知的財産権を侵害している疑いがある場合。

(4) 投稿作品に不健全、わいせつ、ポルノ、または第三者を中傷する内容が含まれている場合。

(5) 応募作品にその他イベント実行委員会が不適切と判断する内容が含まれる場合
8. 主催者の権利

(1) コンテスト主催者は、作品の提出期限やオフライン活動の日付を含むがこれらに限定されない、コンテストの各リンクの時間を変更する権利を留保します。コンテスト主催者は、いつでもコンテストを一時停止または終了する権利を留保します。

(2) コンテスト主催者は、コンテストの各ステージ (決勝戦を含む) で選択されるチームの数を調整する権利、および賞の設定とボーナスの額を調整する権利を留保します。

(3) 大会主催者は、特定のチーム賞の授与を撤回または拒否する権利を留保します。
9. 組織委員会

主催: 四川省教育庁

主催者:南西金融経済大学

共催者:

サウスウェスタン金融経済大学金融学部

西南財経大学教務室

サウスウェスタン金融経済大学財務モデリング協会

サポートユニット: 四川新王銀行

11. その他の関連ニュース

主催者は大会情報グループにて取扱説明書を発行したり、大会に関する質問に答えたりします。取扱説明書には、いくつかの基本的な質問への回答と、関連するトレーニング コースが含まれています。
12. 質問データ

データ提出:参加者は、テストセットのID(IDとして列名を指定)と予測スコア(LABELとして列名を指定)を含む予測結果を.xlsx(Excel形式)形式で提出する必要があります。

提供されるデータは次の部分に分かれています。

トレーニング セット: trainX.xlsx

トレーニング セットのラベル: trainY.xlsx

テストセット: testX.xlsx

サンプルを提出してください:

IDラベル

1 0.475614509

2 0.126453848

3 0.523678444

4 0.475614509

5 0.126453848

6 0.523678444

……

ランキング

現在353チームが参加しており、1位は中国電子科学技術大学のLuo Tianyiさんで、AUC=0.84、アクティブポイント270と、投稿数としては最多ではないようだ。2 位はサウスウェスタン金融経済大学の lz 氏で、AUC=0.839、アクティブ ポイントは 720 です。2位は1位よりも実験が多いようですが、まだ1位を超えるには至っていないので、粘り強い努力と更なる高みを祈っています!最終参加者の AUC はわずか 0.5 程度で、機械学習に触れ始めたばかりで経験がないようです。

 

。。。。。。。。。。。。。

 

学生たちの優秀な成績を見て、長江の後ろの波が前方の波を押し進めるのかとため息をつかずにはいられません。これからも頑張って、より大きな栄光を築いてほしいと願っています。

以上がモデルの正式な紹介ですが、次に 30 分かけてモデルの初期再現を行いました。実験のモデルのパフォーマンスはオフラインで行われ、オンラインでの提出はありません。複数のクラスメートとのやりとりによると、オンラインとオフラインで大きな差はなく、その差は1%から2/1000程度だそうです。

モデルの AUC の改善に関して、私は次の提案をします。

1. 記述統計

古代人は、自分と敵を知れば、どんな戦いでも勝利できると言いました。誰もが記述統計により多くの時間を費やし、変数の分布と特性を観察し、変数ごとに異なるデータ前処理方法を採用することで、モデルのパフォーマンスを向上させることができます。

2. 導出変数

このデータセットには 205 個の変数があり、微分変数に非常に適しています。新しい派生変数は、元の変数よりも識別力が高くなる可能性があります。

 

3. 変数の選択

このデータセットには 205 個の変数がありますが、110 個の変数は冗長であり、値の意味がありません。したがって、これらの変数をモデルのトレーニングに含める必要はありません。以下の図は、右側の多数の変数の重要度が 0 に近いことを示しています。

 

私は以前、会社のモデルの検証・承認を担当していましたが、特に変数の次元削減には厳しく、特に冗長モデルには嫌悪感を持っていました。これは模型競技の考え方とは大きく異なります。

たとえば、次の変数を削除した後でも、モデルのパフォーマンスは低下せず、モデルの過学習も軽減できます。

jieju_subj_num

jieju_dubil_bal

jieju_mbank_prin

jieju_co_bank_prin

jieju_asset_flow_trans_bal

jieju_claim_bal

jieju_amc_bal

jieju_partner_int_rate_val

jieju_loan_oper_mode_cd

jieju_asset_tran_status_cd

jieju_transfr_resrc_pool_num

jieju_guarnt_num

jieju_adv_money_bal

jieju_normal_prin

jieju_ovdue_prin

jieju_ovdue_int_bal

jieju_ovdue_punish_int_amt

jieju_ovdue_comp_int_amt

jieju_cgb_ovdue_prin_bal

jieju_cgb_ovdue_int_bal

jieju_cgb_ovdue_punish_int_amt

jieju_cgb_ovdue_comp_int_amt

jieju_prin_ovdue_days

jieju_int_ovdue_days

jieju_curr_ovdue_term

jieju_cust_dubil_bal

jieju_cust_ovdue_prin

jieju_cust_ovdue_int_bal

jieju_cust_ovdue_punish_int_amt

jieju_cust_ovdue_comp_int_amt

jieju_expd_term

jieju_reorg_ind

jieju_brw_rpay_ind

jieju_repay_freq_cd

jieju_clear_int_period_cd

jieju_pay_mode_cd

jieju_today_init_elev_level_class_cd

jieju_int_rate_adj_mode_cd

jieju_int_rate_float_mode_cd

jieju_int_rate_float_ratio

jieju_comp_ind

jieju_non_acrued_cate_cd

jieju_non_acrued_ind

jieju_impairmt_ind

jieju_wrtoff_ind

jieju_wrtoff_cate_cd

jieju_wrtoff_prin_amt

jieju_wrtoff_int_amt

jieju_wrtoff_punish_int_amt

jieju_unite_bank_wrtoff_prin_amt

jieju_unite_bank_wrtoff_int_amt

jieju_unite_bank_wrtoff_pnsh_int_amt

jieju_belong_org_num

jieju_dubil_lvl_cd

jieju_margn_rule_num

jieju_mercht_num

jieju_int_subj_num

jieju_oper_teller

jieju_memo

ケフ_カスト_nm_pny

kehu_cust_region_cd

ケフ_シティ_cls_cd

kehu_cert_cate_cd

ゴーストネーションCD

ケフ_sch_local_region_county_cd

kehu_rsdnt_ind

kehu_emp_ind

kehu_rel_pty_ind

kehu_cust_stat_cd

kehu_cust_mgr_id

shouxin_belong_org_num

shouxin_circl_ind

shouxin_limit_ctrl_ind

shouxin_use_shared_ind

shouxin_lmt_lvl_cd

4. 複数アルゴリズムの比較

異なるアルゴリズムによって得られるモデルのパフォーマンスは異なります。誰もが複数のアルゴリズムを比較し、最適なモデリング アルゴリズムを選択します。

アンサンブル ツリー アルゴリズムを使用すると、モデル AUC は 0.8093260496988347 になります。

 

ロジスティック回帰スコアカード アルゴリズムを使用すると、モデル AUC は約 0.8129137554999519 になります。

 

4.パラメータを調整する

パラメーターの調整にさらに取り組んでください。以前は、調整パラメーターが少なすぎるため、一部の学生が Gridsearchcv を使用していました。Gridsearchcv は時間がかかるので、他の高効率ツールを試してみてください。さらにいくつかのパラメーターもテストされており、モデルを改善する余地がさらにあります。

アンサンブル ツリー アルゴリズムを例にとると、モデルの AUC は 0.8093260496988347 です。モデルを調整すると、AUC は 0.8117677801362324 に達する可能性があります。ツリーの深さは通常 6 ~ 8 ですが、学習率は高すぎてはならず、0 ~ 0.1 の間で実験してください。

パラメーター調整によるモデルの AUC の改善は非常に限られているため、データ クリーニング、データの前処理、派生変数、変数のスクリーニングなどの基本的なリンクを適切に行うことをお勧めします。

スポンサーへのアドバイス

1. パブリック変数名

新王銀行がコンプライアンス上の理由から変数の実際の商号をブロックした可能性があることがわかります。実際、これはモデルの競争を助長するものではなく、派生変数を扱うのは誰にとっても不便です。融資クラブと住宅信用のデータセットは両方とも実際の変数を示しています。著者は、モデリングとデータマイニングを使用して重要な変数をマイニングし、ビジネスラインにフィードバックしていると考えています。変数名がブロックされてしまうと、モデルコンテストの実質的な意味が薄れてしまうので、主催者にはもっとオープンになってほしいと思います。

2. モデルコンペの選考ルールの最適化

モデルの予測能力は、テスト セットの AUC 値のパフォーマンスによって測定されます。この対策は単純すぎます。モデルをより実用的なものにするために、AUC に基づいてモデル予測時間を追加し、モデル次元の他の 2 つの指標を追加することをお勧めします。AUC のみを参照する場合、プレイヤーはモデルの AUC を改善するために多数の導関数変数を作成できます。高緯度モデルは企業にとって適用が困難です。変数が多すぎると、モデルは展開中や検証中に大惨事になります。オンラインとオフラインのモデル スコアに一貫性がなく、モデル変数が数万ある場合、モデルの失敗の原因を見つけるのは、干し草の山から針を見つけるようなものです。これらはすべて個人的な経験であり、私たちの仕事から得た教訓です。

今年の最新の四川省大学生金融技術モデリング コンテストをご紹介します。機械学習論文特許のカスタマイズ サービスがある場合は、著者に連絡するためのメッセージを残してください。

2022 年四川省大学生金融技術モデリング コンペティションをご紹介します。「Python 金融リスク管理スコアカード モデルとデータ分析 (拡張版)」のより関連性の高い実践事例は、銀行トレーニングや論文参照用に定期的に更新されます。コースをブックマークします。
—————————————————
著作権表示: この記事は公式アカウント (Python リスク管理モデル) からのものであり、許可なく、盗作はありません。CC 4.0 BY-SA 著作権契約に従って、転載する場合は、元のソースリンクとこの声明を添付してください。

おすすめ

転載: blog.csdn.net/toby001111/article/details/132306651