実践的な分析: データに基づいた意思決定を可能にするリスク管理特性変数プラットフォームを作成する

金融ビジネス商品の信用アクセスやトランザクションマーケティングなどの側面では広範なリスク管理要件があり、ビジネスの種類が増加するにつれて、従来のエキスパートルールやスコアカードモデルでは、ますます複雑化するリスク管理シナリオに対応できなくなります。

エキスパート ルール システムが主流のアプリケーションである従来のリスク管理のコンテキストでは、ルール モデルの入力習慣は「変数」と呼ばれます。エキスパートルールに基づくリスク評価は、ルール発動閾値を定量化することが難しいという特徴があり、ルールヒットの精度向上にボトルネックがある。

機械学習およびニューラル ネットワーク アルゴリズムの技術的実装に伴い、アルゴリズム モデルに提供される入力パラメータを参照するために、ますます多くの「特徴」が使用され始めています。具体的には、「特徴」は、上流の外部インターフェースの出力処理では出力パラメータとして機能し、アプリケーション側の入力処理では下流のルールモデルの入力パラメータとして機能します。

建設の背景

特徴変数データ ソースには、基本的な顧客情報、財務状況、消費行動、ソーシャル ネットワーク グラフなどが含まれます。これらは、借り手の信用状況とリスク レベルを反映するためにさまざまなリスク管理モデルに入力され、一連のオンラインで効率的な特徴抽出管理が行われます。リスク管理行動のためのデータ基盤。

銀行や保険会社などの金融機関では、リスク ビジネス ソースの組織構造が複雑であるため、必然的に異なるライン間で特性変数が煙突状に展開されます。戦略モデラーのデータ ニーズは特定のものに限定されることがよくあります。製品は開発および展開されていますが、統一された管理および共有プラットフォームのメカニズムが形成されていないため、企業間でデータの使用とポリシーの生成に一貫性がありません。

したがって、リスク ビジネス データ プロセスの抽象化をさらに製品化し、特性変数の導出、保存、呼び出し、監視を標準化する必要があり、統合されたリスク管理特性変数プラットフォームも登場しました。

問題点の分析

リスク管理タスク開発シナリオでは、モデル タスクは、事前に開発された変数ストレージ テーブルから数値をフェッチします。実際の開発では、機能の開発と展開のしきい値が高い、複雑な機能を抽出するのが難しい、機能アプリケーションの品質が一貫していない、機能の処理プロセスが一貫していないなど、ビジネス上および開発上の問題点が存在することがよくあります。

01 リアルタイム特徴変数開発の敷居が高い

リスク管理ビジネス関連の戦略モデラーのテクノロジー スタックは、主に Python と SQL の機能に基づいています。Java セマンティクスに基づく Flink 開発には、オフライン データ、リアルタイム機能に基づいた学習コストがかかります。処理能力が不足しています。

02 複雑な特徴量の抽出が難しい

一部の外部データ ソース インターフェイスの戻りメッセージには多くの入れ子レベルがあり、パラメーターの場所がわかりにくく、インターフェイスの取得が難しく、抽出された機能に対する統合プラットフォームの管理とメンテナンスが不足しています。

03 機能変数のアプリケーションの品質が一貫していません

リスク管理モデルを構築する場合、モデル タスクには同じ特徴変数要件がありますが、異なるチームまたは異なるプロジェクトで同じ元のデータに対して特徴エンジニアリング処理が繰り返される状況があり、その結果、作成後の対応する SQL の一貫性と精度が低下します。機能変数のロジックが変更されました。

04 特徴量処理プロセスの統一が難しい

下流の戦略およびモデル側の新しい機能変数の要件には、一貫性のある標準化された処理パスが欠如しており、その結果、対応する変数テーブルで受信パラメータと送信パラメータの名前が混乱することになり、新しいフィールドが追加されると、上流テーブルを読み込むことができなくなります。元の SQL と比較すると、より複雑なネストされた結合操作が必要になり、派生機能と変数セットの構成では、タスクの規模とリソースの使用量を制御することが困難になることがよくあります。

リスク管理特性可変システム構築計画

リスク管理特性変数システムの構築は、金融機関のリアルタイムのリスク特定と予防および制御に焦点を当てており、マルチソースの異種データのバッチ抽出、集計、派生処理を通じて、標準化され拡張が容易な統合特性変数プラットフォームを実現します。データ アクセス、特徴変数の生成、下流のモデル トレーニングと意思決定の実行にデータを提供するエンドツーエンドの閉ループを実現するために集約され、リスク イベントの応答速度と意思決定の精度が向上します。

01 技術力

リスク管理ビジネスは、顧客取引、与信承認、その他のシナリオにおいて、リアルタイムのデータ処理要件に直面することがよくあります。ストリーム コンピューティングは、顧客の信用格付け、制限管理、その他のリスク情報をリアルタイムで更新し、リアルタイムのクロスシステム リスク識別機能を提供します。下流の意思決定エンジン向け。

ファイル

リアルタイム リスク制御テクノロジ システム アーキテクチャでは、コンピューティングにはバッチ コンピューティング、ストリーム コンピューティング、およびグラフ コンピューティングが含まれます。ストリーム コンピューティング機能を例に挙げると、Flink は主にデータ ETL、ワイド テーブルに使用される、基礎となるリアルタイム機能コンピューティング機能を提供します。処理、およびウィンドウ処理。コンピューティング、デュアル ストリーム結合およびその他のシナリオ、事前計算、状態集約計算およびその他の機能を通じて、元の機能変数、標準機能変数、および派生機能変数の処理が実現され、機能サポートが提供されます。意思決定モデル。

モデル エンジンは主に、信用スコアリング モデル、不正検出モデル、チャーン警告モデルなど、さまざまなトレーニング済みモデルの保存と管理を担当します。

デシジョン エンジンは、ルール セット、デシジョン ツリー、デシジョン マトリックス、スコアカードなどのポリシー モデルを集中管理します。ルール セットは、モデル エンジンの特徴変数サービスとモデル サービスを呼び出して、デシジョン フローの論理操作に参加します。

異種データ ソースに基づいて、特徴変数エンジンはデータの抽出、処理と計算、標準化された管理とメンテナンスを実行し、リスク管理担当者によるセルフサービス クエリを可能にし、ビジネス データの取得とデータ分析をより便利かつ標準化します。

ファイル

02 データソース

クレジット ビジネス データ ソースを例に挙げると、さまざまなクレジット エンティティに応じて、通常、To C の個人信用と To B の企業信用に分けることができます。実際のビジネスレビューでは、アカウントマネージャーは通常、キャッシュフローレベルと負債レベルの2つの指標に基づいて顧客信用の実現可能性を分析します。

個人信用シナリオでは、顧客のキャッシュ フロー レベルを社会保障支払い、銀行およびサードパーティの支払いプラットフォームの収入フローに分類できます。負債レベルは主に中国人民銀行の信用報告書に基づいており、中国人民銀行の信用報告書データに加えて、個人名義で金融機関が発行したすべてのローン、リスクエクスポージャーを占める金融商品、および外部保証情報が対象となります。情報源には、白航信用情報、浦島信用情報、銭塘信用情報などの第三者の個人信用情報機関が含まれます。

企業信用シナリオでは、小規模およびマイクロ包括的ローンのリスク源は実際の管理者の個人フローに加えて、企業口座フローから同時にキャッシュ フロー レベルが収集され、さらに負債レベルも収集されます。中国人民銀行の企業信用報告書からアクセス。中堅・大企業向けの信用供与や業種特化型融資では、中小企業向け包括融資とは異なり、クレジット税データに基づいて主体のリスク行動事象を直接測定することが困難であり、さらなるオフラインデューデリジェンスが必要となる。社内の在庫や関連会社の稼働状況などと合わせてご検討ください。

上記 2 種類のクレジット ビジネスの場合、フィーチャ処理では多くの場合、次の多次元データ ソースが収集されます。

ファイル

03 データ処理

さまざまなリスク管理シナリオのデータ ソースに対して、バッチ、ストリーム、事前計算、その他のモードを統合する機能変数処理方法が使用され、ビジネス ニーズの機敏な開発とストレージと計算のコスト管理が実現されます。

バッチ コンピューティング: 大規模な履歴データ セットの場合、バッチ処理を使用して特徴変数を処理します。データ内の欠損値や外れ値などの問題は、補間や平滑化などの方法を使用して処理され、データの品質が保証されます。

ストリーム コンピューティング: リアルタイム データ ストリームの場合、ストリーム処理モードが特徴変数処理に使用されます。リアルタイム ストリーム処理テクノロジーにより、リスク管理シナリオのリアルタイム要件を満たすデータのリアルタイム分析が実現されます。同時に、データ処理の効率と柔軟性を確保するために、イベント駆動型のアーキテクチャが採用されています。

事前計算: ビジネス システム データの場合、変更の頻度に応じて特徴変数を事前計算して保存します。これにより、フロー計算コストが効果的に削減され、特徴エンジンからデータを取得する際の意思決定システムの効率が向上します。

04 プラットフォーム構築

具体的には、特性変数プラットフォームは、リスク管理モデルの入力要件をサポートするために、信用報告システム、サードパーティのデータソース、企業内部システムなどの複数のソースからのデータを統合し、バッチ機能の派生処理を実行する必要があります。さまざまなビジネスシナリオ。さまざまな複雑さの機能変数に対する、構成可能なビジネス主導のローコード処理メソッドをサポートします。したがって、機能変数プラットフォームの構築には通常、次の側面が含まれます。

1. 特徴量変数の抽出と生成、自動化されたデータ クリーニングと前処理により、生データをモデリングに使用できる特徴量に変換します。キャンバス + コンポーネントベースのワンストップ WEB IDE モデルを提供して開発効率を向上させ、ユーザー定義またはシステム組み込みの特徴計算ロジックをサポートします。

2. 機能変数の保存と管理

分散ストレージメカニズムに基づいて、大規模な履歴およびリアルタイムの特性データを保存します。特徴のバージョン管理を実装し、特徴計算ロジックの変更履歴を記録し、モデルのトレーニングをデータの特定のバージョンまで追跡できるようにします。

3. 特性変数のサービス化

さまざまなモデルのトレーニング、予測、意思決定エンジンにリアルタイムまたはバッチの機能クエリ サービスを提供する機能サービス インターフェイスを提供します。出力コンポーネントを通じて、ダウンストリームのルール エンジン、リアルタイム データ ウェアハウス、メッセージ キューに迅速に接続し、複雑なビジネス シナリオにおける低遅延と高同時アクセスのパフォーマンス要件を満たすことができます。

4. 特性変数の探索と分析

アナリストが特徴変数の分布、相関関係などを迅速に理解できるようにする豊富な統計分析ツールを提供します。ビジュアル インターフェイスには、機能の重要性、影響度、その他の指標が表示され、機能の選択と反復を支援します。

5. 内部および外部システムとの統合

金融機関の内部取引システム、CRMシステム、ERPシステムなどの複数のデータソースを統合します。他のリスク管理コンポーネント(ルール エンジン、モデル ライブラリなど) および外部信用レポートなどのサードパーティ データ サービス プロバイダーとの接続をサポートします。

05 建設収入

銀行の顧客特性変数プロジェクトの実装において、このプラットフォームは、融資前の信用シナリオにおける特性変数の処理とデリバティブ管理のニーズに応え、外部オペレーター、産業、商業、司法データなどの多様な上流データソースと接続します。 ; および銀行の内部顧客機器情報、口座取引情報、融資前に収集された資産評価および限度額計算データ。リアルタイムの特徴変数計算機能を通じて、スコアカードなどの下流モデルに適用してデータを提供できます。

ファイル

1. コンポーネントベースの特徴変数の抽出

プラットフォームは SQL コマンドからの機能変数をバッチで解析し、モデル タスクのデータ取得要件について、ユーザーはプラットフォーム上で必要な機能変数を自由に処理して組み合わせ、対応するテーマ ハイブ テーブルに書き込み、読み取りと処理を行うことができます。

2. 特徴変数セットの同期更新

このページでは、機能変数セットの追加、削除、編集がサポートされており、プラットフォーム テーブル構造の操作は物理モデル テーブルと自動的に同期されます。機能変数のロジックが変更された場合、対応する標準機能変数の派生コードまたは元の機能変数の標準化操作を編集するだけで、大規模な SQL 関数の複雑な開発を回避できます。

3. 安定性・異常監視

プラットフォームが提供する監視ダッシュボード機能は、特性変数の変動の監視と変数セットの呼び出しをサポートしており、特性変数の値を監視することで、上流のデータが異常な場合には下流のタスクを適切に停止することができます。モデルの使用時に特性変数の過度の違いによって引き起こされる問題を回避する可能性を最大化します。各変数セットの呼び出しステータスに関する統計と、ベースライン アラームおよび強弱ルール検証情報のリアルタイムプッシュ。

4. プラットフォームの統合管理と制御

このプラットフォームは、メンバー管理、承認センター、通話分析、自動アーカイブ、タスクの再開、その他の管理および制御方法を提供し、タスクの優先順位の調整をサポートし、データ サービスのパフォーマンスとクラスター リソースの使用率を向上させるためにタスク操作を均一にスケジュールします。

このプラットフォームはオンラインで展開され、消費者ローン、小規模および零細信用ローン、その他のビジネス向けの 30 以上の信用シナリオをカバーおよびサポートしています。特性変数プラットフォームは、下流のルールモデルエンジンと組み合わせることで、リスク管理シナリオにおけるリアルタイムの意思決定機能の実装を実現し、クレジットカードの申し込みおよびローン承認におけるユーザーの顧客エクスペリエンスとローン効率を向上させるニーズを満たします。さらに、融資後の回収、取引の不正防止、その他のシナリオのためのデータも提供し、ユーザーの異常な取引行動をリアルタイムで監視し、マネーロンダリング防止の身元識別を実行する下流システムをサポートします。 、リアルタイムアラームをプッシュします。

「Dutstack 製品ホワイトペーパー」ダウンロードアドレス:https://www.dtstack.com/resources/1004 ?src=szsm

「データ ガバナンス業界実践ホワイト ペーパー」ダウンロード アドレス: https://www.dtstack.com/resources/1001?src=szsm

ビッグデータ製品、業界ソリューション、顧客事例について詳しく知りたい、または相談したい場合は、Kangaroo Cloud 公式 Web サイトをご覧ください: https://www.dtstack.com/?src=szkyzg

ライナスは、カーネル開発者がタブをスペースに置き換えるのを防ぐことに自ら取り組みました。 彼の父親はコードを書くことができる数少ないリーダーの 1 人であり、次男はオープンソース テクノロジー部門のディレクターであり、末息子はオープンソース コアです。寄稿者Robin Li: 自然言語 新しいユニバーサル プログラミング言語になるでしょう。オープン ソース モデルは Huawei にますます後れをとっていきます 。一般的に使用されている 5,000 のモバイル アプリケーションを Honmeng に完全に移行するには 1 年かかります。 リッチテキスト エディタ Quill 2.0 リリースされ、機能、信頼性、開発者は「恨みを取り除く ために握手を交わしました。 Laoxiangji のソースはコードではありませんが、その背後にある理由は非常に心温まるものです。Googleは大規模な組織再編を発表しました。
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/3869098/blog/11045960