ETL は Kettle を使用して銀行のクレジット カード アプリケーション プロジェクトを処理します

1. プロジェクト概要

        即日カード申込者の情報を確認し、条件を満たさない者のリスクをマークし、リスクフリーな人材の情報を場所別に分類して配信

情報源:

1.Web端末:銀行のWebページ申込 | 2.携帯端末:オンラインバンキング、モバイルバンキング | 3.三者:各種ポータルサイト、モバイルAPP | 4.窓口:手動窓口、ATM、CRS | 5.販売員:ローカルプッシュ

メイン テーブルのプレビュー:

 情報クリーニング プロセス:

情報取得 → 情報入力 → 情報の重複排除 → コード情報の置換 → 対応する情報フィールドの追加・補足 → リスクノート → 情報テーブルの作り直し → 実際のニーズ/状況に応じた出力テーブル/excel/sql/csv

4. データクリーニングの目的:

(1 営業マンがデータ情報の一部を理解していない、無駄なデータを削除

(2) 分析部門・リスク管理部門は、データ分析を行い、リスク分析とリスク管理を行い、カード発行要件を満たしているかを確認します。

5. リスクに関する注意事項:

記入した情報と一致しない申請者に対してリスクアセスメントを実施し、リスクメモを作成する 申請者にどのリスク情報が表示されているか、メモに説明する

※年齢リスク:IDカード情報をもとに年齢確認を行い、一致しない方にはリスクノートを作成

※戸籍リスク:IDカード情報から戸籍を確認し、一致しない場合はリスクノートを作成

※リスク対応:地域情報により、確認できない方はリスクノートに記載

※学歴リスク:修士号取得者22歳未満、博士号取得者24歳未満、一致しない場合はリスクノートをご記入ください

※給与リスク:年収20W以上の方はリスクノートに記入

※性別リスク:IDカードの情報で確認し、一致しない方はリスクノートを作成

6. サブテーブル:

1. 分析部門/リスク管理部門: リスク表示情報なしおよびリスク表示情報

2. 販売員:地域別表分類→販売員(地域)→カード発行

7. データのエクスポート:

チームリーダーまたは部門長→分析部門/リスク管理部門→営業マン

ID カード情報の解釈:

1. 1 桁目と 2 桁目は省(自治区、直轄市、特別行政区)を表します。

2. 3 桁目と 4 桁目は市を表し、都道府県市、自治県、連盟、直轄市、郡の要約コードのうち、01 ~ 20、51 ~ 70 は省、直轄市を表します。中央政府; 21-50 は地域 (自治県、同盟) を表します。

3. 5 桁目と 6 桁目は郡を表し、市区、郡級市、バナーを表し、01 ~ 18 は市区または地域 (自治県、リーグ) が管轄する郡市を表し、21 ~ 80 は郡を表します (バナー); 81-99 は、州政府の直轄の郡レベルの都市を表します。

4. 7 桁目から 14 桁目は生年月日コードで、コード化されたオブジェクトの生年月日を示します。

5. 15 桁目から 17 桁目までがシーケンスコードで、住所コードで識別される地域内で同じ年月日生まれの人に割り当てられるシーケンス番号です。このうち、17番目の奇数が男性に、偶数が女性に割り当てられています。

6. 最後の桁はチェックコードであり、統一された式に従ってナンバリングユニットによって計算されます。

7. Ⅹ はローマ数字の 10 です. X を使用して 10 を置き換えると、市民の ID カードが国家基準を満たすことを保証できます

2. プロジェクトの準備

プロジェクト文書を確認し、適切な記録を作成し、いつでも補足記録できるようにします。

1.主テーブルと副テーブルの関係を分析し、SQL文の統計を書き出す

2. データ量に応じて適切な抽出・変換方法を選択

たとえば、主テーブルのフィールドのシリアル番号に対応する副テーブルのデータを置き換え、主テーブルを出力します。

さまざまなプロジェクトに応じてさまざまな方法を選択してください。

1. Excelで列を選択 >>>ctrl+f >>>置換(P) >>>内容を検索してコード番号に設定 >>>置換するデータに置換 >>>検索(s) [列ごと]>> > すべて置換

2. SQL クエリ ステートメント: select b. type from total table a join data matching table b on a. field (type) = b. field (code);

3. SQL テーブル作成ステートメント: テーブルを sql ステートメントに変換し、バッチ置換を実行し、最後に sql を実行します。

4. やかん: 値のマッピング + 変更の種類

5.データベースへの接続:2テーブル入力+分別ソート+レコード接続+フィールド選択+エクセル出力

7. データベースクエリ + マッパー変換

...

プロジェクトの要件に従って、検証を段階的に実行し、マッピング仕様を適切に確立します

次の図は、会社の場所を確立するためのマッピング仕様です. 以下のマップの配置を比較します. 注 (最初に完了してから改善してください)

Switch/case を使用して、メイン テーブルのデータを一致させます

データベース クエリは、メイン テーブルに接続します。

マッピング仕様入力の設定: メイン処理テーブルによって転送されたフィールドをそれに書き込みます

 エンジニアリング処理のマスターテーブル:

 置換後、フィールド選択を使用して、名前の更新や削除などの変更が必要なフィールドを抽出し、処理結果を新しく作成した Excel 出力に入れ、比較検証します。問題がなければ、 、次のステップに進みます

ID カード番号は、次のように抽出および変換されるデータに対応します。

増加定数を設定し、ステップの名前を変更して年を増加させます. このステップは主に、ID カードの生年月日と設定された年の差から得られる年齢が、入力された年と一致するかどうかを検証することです.

 引き算をする

 マッピング値を使用して ID カードの 17 桁目 (下から 2 番目) と性別を比較し、性別のリスクを確認します。

次のステップでは、データベース クエリが ID カードの最初の 6 桁を 2 番目のテーブルと比較して、後続の領域が塗りつぶされた領域と一致するかどうかを確認します。

 フィルタリングされたレコードに基づいて条件フィルタリングを実行し、修飾されたものを真の表に出力し、修飾されていないものを偽の表に出力します

年齢リスクが判断される場合、それは一貫していますか

 

 リスクラベリングの定数を増やす

戸籍が危険かどうか、一貫性があるかどうかの判断

 

アドレスエリアが危険かどうかを判断する

 

その通りが危険かどうかの判断

 

学歴が危険かどうか、虚偽申告などの理不尽かどうかの判断は、さらに対処する必要がある

地域の平均水準区分基準により、賃金にリスクがあるかどうかを判断し、水準超過時のリスク表示と検証を実施

 性別確認のため、性別に偽りがないか

 

 処理されたすべての出力は、すべてリスクのないテーブルです

 

リスクが高いと分類されたものは、リスクテーブルに出力できます

 終わり

おすすめ

転載: blog.csdn.net/qq_53521409/article/details/126689503