データの前処理+データのクリーニング

1.概要

実際のデータベースは、データベースが大きすぎ、そのほとんどが複数の異種データソースに由来するため、ノイズ、欠損値、および不整合データの影響を非常に受けやすくなっています。低品質のデータは、低品質のマイニング結果をもたらします。データの前処理手法は多数あります
。- データのクリーニング:データのノイズをクリアし、不整合を修正するために使用できます。
-データ統合:複数のデータソースからのデータを、データウェアハウスなどの一貫したデータストアにマージします。
-データの削減:クラスタリング、冗長機能の削除、クラスタリングなどにより、データのサイズを削減できます。
-データ変換:(たとえば、正規化)を使用して、データを0.0から1.0などの短い間隔に圧縮できます。

これにより、設計距離測定のマイニングアルゴリズムの精度と効率を向上させることができます。これらのテクニックは排他的ではなく、一緒に使用できます。

1.1。データ品質  データがアプリケーションの要件を満たすことができる場合、そのデータは高品質です。データ品質には、正確性、完全性、一貫性、適時性、信頼性、解釈可能性など、多くの要素が含まれます。

2.データのクリーニング

現実のデータは、一般的に不完全で、ノイズが多く、一貫性がありません。データクリーニングルーチンは、欠損値の入力、ノイズの平滑化、外れ値の特定、およびデータの不整合の修正を試みます。

2.1、欠損値

欠落している属性を処理する方法は?次の方法を見てみましょう
。1 ---タプルを無視する:これは通常、クラスラベルが欠落しているときに行われます(マイニングタスクの設計分類を想定)。タプルの複数の属性に欠損値がない限り、変更方法はあまり効果的ではありません。各属性の欠損値の割合が大きく異なる場合、彼のパフォーマンスは特に低くなります。タプルを無視すると、タプルの残りの属性値を使用できなくなります。これらのデータは、目前のタスクに役立つ場合があります。
2 ---欠損値を手動で入力する:一般に、この方法は非常に面倒であり、データセットが大きく、多くの値が欠損している場合は機能しない可能性があります。
3 ---グローバルを使用して欠落値を埋める:欠落している属性値を同じ定数で置き換えます(例:「不明」または-∞)。正確な値が「不明」に置き換えられた場合、マイニングプログラムは、それらすべてが同じ値「不明」を持っているため、興味深い概念を形成していると誤解する可能性があります。したがって、この方法は単純ですが、あまり信頼できません。
4 ---属性の中央メジャー(平均値や中央値など)を使用して欠損値を埋めます。通常の(対称)データ分布の場合、平均を使用できますが、歪んだデータ分布では中央値を使用する必要があります。
5 ---指定されたタプルと同じクラスのすべてのサンプルの属性の平均値または中央値を
使用します。6---最も信頼できる値を使用して欠落値を埋めます。推論に基づいて回帰、ベイズ形式法を使用できますツールまたは決定木。

方法3〜方法6ではデータにバイアスがかかり、データが不正確になる可能性があります。ただし、方法6は最も一般的な戦略です。他の方法(方法2を除く)と比較して、既存のデータのほとんどの情報を使用して欠損値を予測します。

場合によっては、欠損値はデータが間違っていることを意味しないことに注意してください。理想的には、各属性にはNULL条件に関する1つ以上のルールが必要です。これらのルールは、null値を許可するかどうか、および/またはそのようなnull値を処理または変換する方法を示します。ビジネスプロセスの後半で値を指定する場合、フィールドも意図的に空白のままにされることがあります。したがって、データを取得した後でも、データをクリーンアップするために最善を尽くすことができますが、優れたデータベースとデータ入力の設計は、最初のサイトでの欠損値またはエラーの数を最小限に抑えるのに役立ちます。

2.2。ノイズデータ
ノイズは、測定された変数のランダムなエラーまたは分散です。基本的なデータの統計的記述手法(ボックスプロットや散布図など)とデータの視覚化手法を使用して、ノイズを表す可能性のある外れ値を特定できます。

1 ---ビニング(ビニング):ビニング方法は、データの「近傍」(つまり、周囲の値)を調べることにより、順序付けされたデータ値を平滑化します。これらの順序付けされた値は、いくつかの「ポーク」またはボックスに配布されます。ビニング法は最近傍の値を調べるため、局所平滑化を実行します。
ここに写真の説明を書きます

上の図に示すように、データは最初にソートされ、サイズ3の等しい周波数ビンに分割されます。ボックス平均による平滑化では、ボックス内の各値がボックス内の平均で置き換えられます。同様に、滑らかなボックスの中央値または滑らかなボックスの境界線を使用できます。

2 ---回帰:関数を使用してデータを近似し、データを平滑化できます。この手法は回帰と呼ばれます。線形回帰では、2つの属性(または変数)に適合する「最良の」線を見つけ、1つの属性を使用して他の属性を予測できるようにします。多重線形回帰は線形回帰の拡張であり、3つ以上の属性が含まれ、データは多次元表面に適合されます。

3 ---外れ値分析:外れ値は、たとえばクラスタリングによって検出できます。クラスタリングは、類似した値をグループまたは「クラスター」に編成します。直感的には、クラスターセットの外にある値は異常値と見なされます。
ここに写真の説明を書きます

2.3。プロセスとしてのデータのクリーニング

データクレンジングプロセスの最初のステップは、不一致の検出です。多くのオプションのフィールドがある不十分に設計された入力フォーム、人間の入力エラー、意図的なエラー(たとえば、個人のプライバシーを開示したくない)、データの劣化(たとえば、古いアドレス)など、逸脱を引き起こすさまざまな要因が考えられます。偏差は、一貫性のないデータ表現と一貫性のないコーディングの使用からも発生する可能性があります。データおよびシステムエラーを記録するデバイスのエラーは、偏差のもう1つの原因です。本来の目的以外にデータ(不適切)を利用した場合もエラーとなる場合があります。また、データ統合により不整合が生じる可能性があります(たとえば、特定の属性が異なるデータベースで異なる名前を持つ場合)。

では、どのように逸脱検出を行うのでしょうか?まず、「データに関するデータ」をメタデータと呼ぶ概念を明確にします。たとえば、各属性のデータ型のドメインは何ですか?各属性の許容値は何ですか?データの傾向を把握し、異常を特定するには、データの基本的な統計的記述が役立ちます。たとえば、平均、中央値、モードを見つけます。データは対称的ですか?範囲は?すべての値は期待される範囲内ですか?各属性の標準偏差は何ですか?指定された属性の平均から2標準偏差以上離れている値は、可能な外れ値としてマークされる場合があります。属性間に既知の依存関係はありますか?このステップでは、プログラムを作成するか、後で説明するツールを使用できます。これから、調査が必要なノイズ、異常値、異常な値が見つかる場合があります。

1 ---エンコード形式:エンコードの不一致とデータ表現の不一致(たとえば、日付 "2015/12/08"と "08/12/2015")に注意してください。2
---フィールドのオーバーロード:開発者は新しいものになります属性の定義は、定義された属性の未使用(ビット)部分に押し込まれます(たとえば、属性の未使用ビットを使用し、その値は32ビットのうち31ビットをすでに使用しています)。

1 ---:一意性ルール:特定の属性の各値は、属性の他の値と異なる必要があります。
2 ---:連続性ルール:属性の最小値と最大値の間に欠損値はなく、すべての値も一意でなければなりません(たとえば、テストの数)
3 ---:ヌル値ルール:説明は空白です、疑問符、特殊記号、またはnull条件(特定の属性の値を使用できない場合など)を示すその他の文字列、およびそのような値の処理方法。

1 ---データスクラブツール:単純なドメイン知識(住所の知識とスペルチェック)を使用して、データのエラーをチェックして修正します。複数のデータソースからデータを削除する場合、これらのツールは分析とファジーマッチングテクニックに依存します。
2 ---データ監査ツール:データを分析してルールと接続を発見し、これらの条件に違反するデータを検出して逸脱を発見します。
3 ---データ移行ツール:文字列「gender」を「sex」に置き換えるなどの簡単な変換を説明できます。
4 --- ETL(抽出/変換/ロード、抽出/変換/ロード)ツール:ユーザーがグラフィカルユーザーインターフェイスを介して変換を説明できるようにします。
通常、これらのツールは限られた変換のみをサポートしているため、データクレンジングプロセスのこのステップ用にカスタムプログラムを作成する必要がある場合があります。

偏差検出とデータ変換(偏差の修正)これら2つのステップを繰り返し実行します。通常、ユーザーを満足させるには複数回の反復が必要です。

新しいデータクレンジング方法は、強化された対話性を強調しています。たとえば、Potter's Wheelは、偏差の検出とデータ変換を統合するパブリックデータクリーニングツールです。

 

 

 

前処理段階

前処理段階は主に2つのことを行います。

1つは、データを処理ツールにインポートすることです。一般的に言えば、データベースを使用し、単一のマシンを実行してMySQL環境を構築することをお勧めします。データ量が多い(1,000万レベルを超える)場合は、テキストファイルストレージ+ Python操作を使用できます。

2つ目は、データを確認することです。ここには2つの部分があります。1つは、フィールドの解釈、データソース、コードテーブルなどのメタデータと、データを説明するすべての情報を確認することです。2つ目は、データの一部を抽出し、手動表示を使用してデータ自体を直感的に理解することです。最初はいくつかの問題を発見し、その後の治療に備えました。

最初のステップ:欠損値のクリーニング

欠損値は最も一般的なデータの問題であり、欠損値を処理する方法は多数あります。次の4つの手順をお勧めします。

1.欠損値の範囲を決定します。各フィールドの欠損値の比率を計算し、欠損値の比率とフィールドの重要度に従って戦略を作成します。これは次の図で表すことができます。

2.不要なフィールドを削除する:この手順は非常に簡単です。直接削除するだけです...しかし、クリーニングのすべての手順をバックアップするか、小規模データで正常にテストしてから全量のデータを処理することを強くお勧めします。そうしないと、誤って削除すると後悔します。何もありません(言うまでもなく、SQLを記述する場合、削除はどこに一致する必要があります!)。

3.不足しているコンテンツを入力します。いくつかの不足している値を入力できます。3つの方法があります。

  • ビジネスの知識または経験を使用して、欠損値を埋めることを推測します
  • 同じ指標(平均、中央値、モードなど)の計算結果を欠損値に入力します
  • 欠損値をさまざまな指標の計算結果で埋める

 

最初の2つの方法は理解しやすいです。3番目の方法について、最も単純な例を見てみましょう。年齢フィールドが欠落していますが、マスクされた6桁のID番号があるため、...

4.再取得:いくつかの指標が非常に重要で欠落率が高い場合は、関連するデータを取得する他のチャネルがあるかどうかをアクセス担当者またはビジネススタッフに知らせる必要があります。

 

上記では、欠損値のクリーニングの手順を単純に整理しましたが、欠損値の入力など、一部の手順は、私が言ったよりもはるかに複雑です。統計手法や統計ツールについて説明している本の多くは、関連する手法について言及しているので、興味のある人は詳しく学ぶことができます。

2番目のステップ:コンテンツのクリーニングをフォーマットする

データがシステムログからのものである場合、通常は形式と内容に関して、メタデータの説明と一致します。データが手動で収集されるか、ユーザーによって入力された場合、フォーマットとコンテンツにいくつかの問題が発生する可能性が高くなります。簡単に言えば、フォーマットコンテンツの問題には次のカテゴリがあります。

1.時刻、日付、数値、半角全角などの表示形式に矛盾がある

この種の問題は通常、入力端子に関連していますが、マルチソースデータを統合するときにも発生する可能性があり、一貫した形式に処理できます。

2.コンテンツに存在すべきでない文字がある

一部のコンテンツには文字の一部しか含まれていない場合があります。たとえば、ID番号は数字+文字で、中国語の名前は中国語の文字です(Zhao Cはまだ少数派です)。最も一般的なものは、頭、尾、中央のスペースであり、名前にデジタルシンボルが含まれている、ID番号に漢字が表示されているなどの問題がある可能性もあります。この場合、半自動検証と半手動の方法を使用して、起こりうる問題を見つけ、不要な文字を削除する必要があります。

3.コンテンツがこのフィールドのコンテンツと一致しない

性別で書かれた名前、携帯電話番号で書かれたID番号などはすべてこのような問題です。ただし、この問題の特徴は、削除では単純に対処できないことです。これは、手動の入力エラー、フロントエンドでの検証がない、またはデータのインポート時に一部またはすべての列が整列しない場合があるためです。したがって、問題のタイプを詳細に特定する必要があります。

フォーマットコンテンツの問題はより詳細な問題ですが、クロスピットアソシエーションやVLOOKUPの失敗などの多くの分析エラーがこのピットに組み込まれています(複数のスペースにより、ツールは「Chen Danyi」と「Chen Danyi」は1人ではないと考える)、不完全な統計(もちろん、数字と文字が混在していると結果に問題があります)、モデル出力が失敗する、または効果が良くない(データが間違っている、日付と年齢が混在しているなど...)したがって、特に処理済みデータが手動で収集される場合、または製品のフロントエンド検証設計が適切でないことが確かな場合は、クリーニング作業のこの部分に注意してください...

ステップ3:ロジックエラーのクリーニング

作業のこの部分では、単純な論理推論を使用して問題を直接見つけることができるいくつかのデータを削除して、分析結果が逸脱しないようにします。主に次の手順が含まれます。

1.重複排除

一部のアナリストは最初のステップでリプレイを行いたいと思いますが、フォーマットコンテンツのクリーニング後にリプレイを置くことを強くお勧めします。理由はすでに述べられています(複数のスペースにより、ツールは「Chen Danyi」と「Chen Danyi」だけではないと考えるようになります、重複排除の失敗)。さらに、すべての繰り返しがそれほど単純であるとは限りません...

私はかつてテレセールスに関するデータ分析を行ったところ、注文を取得するためにセールスマンが非常に役に立たないことがわかりました。たとえば、「ABCバトラー株式会社」という会社が販売Aの手に渡り、次に販売Bがこの顧客をつかむために、「ABC公式家族有限会社」をシステムに入力します。よく見てみないと違いがわかりません。たとえ見えても、「ABC Guanjia Co.、Ltd.」のようなものがないことを保証できます...このとき、RD太ももをハグする必要があります誰かにあいまい一致アルゴリズムを書いてもらうか、肉眼で見てもらいます。

上のものは最も冷酷ではありません。下の画像をご覧ください。

あなたのシステムでは、両方の道路がBalizhuang Roadと呼ばれている可能性が非常に高いです。(重いヒントが付属:2つのBalizhuang Roadの家番号の範囲が異なります)

もちろん、データを手動で入力しない場合は、単に重複排除を実行します。

2.不当な値を削除する

それは1つの文で明らかにすることができます:誰かが盲目的にフォームに記入したとき、彼は200歳であり、100万元の年収があります(「1万」という単語を見なかったと推定されます)。この種の情報は削除されるか、欠損値として扱われます。この値を見つける方法は?ヒント:利用可能ですが、ボックスプロットに限定されません。

3.矛盾を修正する

たとえば、ID番号が1101031980XXXXXXXXであり、年齢が18歳で埋められているなど、いくつかのフィールドは相互に検証できます。他のフィールドは常に18歳であるという考えを理解していますが、実際の年齢はユーザーにより良いサービスを提供できることがわかっています(ここでも... …)。このとき、フィールドのデータソースに基づいて、より信頼性の高い情報を提供するフィールドを特定し、信頼性の低いフィールドを削除または再構築する必要があります。

上記以外にも、記載されていない論理エラーの場合が多く、実際の運用においては適切に対処する必要があります。さらに、問題が非常に単純であっても、すべての問題を一度に見つけることができないため、後続のデータ分析モデリングプロセスでこのステップを繰り返すことができます。私たちにできることは、問題の可能性を最小限に抑えるツールと方法を使用することです。セックス、分析プロセスをより効率的にします。

 

ステップ4:非デマンドデータクリーニング

この手順は非常に簡単です。不要なフィールドを削除します。

しかし実際には、次のような多くの問題があります。

  • 不要と思われるが、実際にはビジネスにとって重要なフィールドを削除します。
  • フィールドは便利だと感じますが、使用方法がわからないので、削除する必要があるかどうかわかりません。
  • 一見、間違ったフィールドを削除しました。

 

最初の2つのケースで私が与えたアドバイスは、フィールドを削除せずにデータを処理するのに十分な量のデータではない場合、削除できるフィールドはできるだけ削除しないでください。3番目のケースでは、データをバックアップしてください...

ステップ5:関連性の検証

データに複数のソースがある場合は、関連付けを確認する必要があります。たとえば、車と電話の顧客サービスアンケート情報のオフライン購入情報がある場合、その2つは名前と携帯電話番号で関連付けられています。次に、同じ人物がオフラインで登録した車両情報とオンラインアンケートで尋ねられた車両情報が一致するかどうかを確認します。同じ手段ではない場合(笑わないでください。ビジネスプロセスの設計が適切でない場合は、このような問題が発生する可能性があります)。次に、データを調整または削除する必要があります。

厳密に言うと、これはデータクリーニングの範囲外であり、関連するデータの変更はデータベースモデルに含まれる必要があります。ただし、複数のソースからのデータの統合は非常に複雑なタスクであることを忘れないでください。データ間の相関に注意を払う必要があります。分析プロセス中に互いに競合しないようにしてください。ただし、気づかないでください。 。

上記は、データクリーニングプロセスの単純な組み合わせです。能力に限りがございますので、1万円の損失は不可避ですので、よろしくお願いします。

 

2.

データ分析前の準備データ分析チームのメンバーが決定した後、次のタスクは分析のための貴重なデータを見つけることです。データは分析の基礎です。したがって、データの品質、データの関連性、およびデータのディメンションは、データ分析の結果に影響を与えます。その中で、GIGO(ガベージインとガベージアウト)は、データ分析の結果に最も大きな影響を与えます。

1データソースの選択

データ分析チームは、多数のデータソース、さまざまなデータソース間の相互リンク、さまざまなデータフィールド間の論理関係、各製品の統計的口径、および異なる期間の値に直面しています。これらの問題のほとんどはデータ分析結果に影響するため、データソースの選択とデータの照合を決定することは非常に重要です。

DBAは、データ分析のニーズに基づいて関連データを見つけ、データワイドテーブルを確立し、データウェアハウスからこのワイドテーブルにデータを導入し、特定の論理関係に基づいてサマリー計算を実行できます。この広いテーブルはデータ分析の基礎として機能し、データ分析のニーズに基づいてさまざまなフォームを導出し、データ分析のためのクリーンで包括的なデータソースを提供します。ワイドテーブルは、関連する分析データを一元化するために使用される一方で、効率を向上させるために使用されます。分析ごとに他のデータテーブルをクエリする必要がないため、データウェアハウスの効率に影響します。

2データサンプリングの選択

単純なデータ分析は、分析のためにすべてのデータを呼び出すことができます。データサンプリングは、主にモデリングと分析に使用されます。サンプリングは、さまざまな顧客タイプをカバーするサンプルの代表性を考慮する必要があります。サンプリング時間も非常に重要であり、時間枠に近づきます。分析と予測に役立つ。層別サンプリングを行う場合、サンプルが分割される割合が基本的に元のデータと同じであることを確認する必要があります。

3データタイプの選択

データタイプは連続タイプと離散タイプに分けられ、データタイプはモデリングと分析中に決定する必要があります。事業収入の傾向分析、売上予測分析、RFM分析を行う場合、通常、連続変数が使用されます。離散変数は、通常、信用格付けと分類予測で使用されます。

4欠損値の処理

データ分析中には、多くの欠損値に直面し、それらの原因が異なります。プライバシー上の理由から、それらのいくつかは意図的に隠されています。変数自体には値がないものや、データのマージ中の不適切な操作が原因でデータが欠落しているものがあります。

欠損値の処理には、別の方法(推定方法)を使用できます。既知の経験値を使用して欠損値を置き換え、欠損値を維持し、欠損値を削除します。具体的な方法は、参照変数と独立変数とサンプルサイズの関係によって決まります。

5外れ値の検出と処理

外れ値は、クラスター分析や線形回帰(ロジスティック回帰)などの一部のデータ分析結果に大きな影響を与えます。しかし、決定木、ニューラルネットワーク、SVMサポートベクターマシンにはほとんど影響しません。

一般的な外れ値とは、観測値から大きく外れた平均値であり、たとえば、年齢が200歳で平均収入が10万元の場合、異常値は300万元になります。最初の外れ値は無効な外れ値であり、削除する必要がありますが、2番目の外れ値は有効な外れ値である可能性があり、経験に基づいてそれを維持するか削除するかを決定できます。

6データの標準化データの標準化

の目的は、さまざまな性質と大きさのデータにインデックスを付け、それを類似の範囲に調整することです。たとえば、ロジスティック回帰モデルを確立する場合、性別の値は0以下ですが、収入の値は0〜1億で、スパンが大きく、標準化する必要があります。

一般に、最良/最大標準化(Min-Max正規化法)を使用して、値を0から1の間に設定し、簡単に計算できます。Z分数法、10進法校正標準化法も使用できます。

7データの粗分類(分類)処理

分類と分類の目的は、サンプル変数を減らすことであり、一般的な方法には、等距離分類と等周波数分類があります。独立変数は経験に基づいていくつかのカテゴリに分類でき、分類方法は異なる場合があります。使用する分類方法を決定するには、カイ2乗検定を使用することをお勧めします。連続変数は、WOE変更メソッドを使用してモデルを簡略化できますが、モデルの解釈可能性を低下させます。

8変数の選択

データ分析中に、数百または数千の変数に直面しますが、一般に、ターゲット変数に関連する変数はほんのわずかであり、予測精度の向上に役立ちます。通常、モデリングと分析では、強い相関変数(スマート変数)と呼ばれる意味のある変数が10〜15個しかありません。変数は、変数フィルターメソッドを使用して選択できます。一般的な可変フィルターアプリケーションのシナリオは次のとおりです。

 



第三に、データ分析プロセス

ビジネス研究への1、解決すべきビジネス上の問題を理解するためのデータ分析やタスクにビジネス上の問題をマッピングするために

2つの研究、企業の外部データ内の、データ分析ニーズを見つけ、特定の領域にデータを収集します、データマートまたはデータウェアハウス、探索的分析

3データのクリーニング(データの整合性のチェック、外れ値と欠損値の処理、重複データの削除など)

。4データの変換(データのビニング(Binning)など)、文字変数の変換デジタル変数については、データの必要なディメンションに従って要約します

。5モデルを確立し、ビジネスニーズに応じてさまざまなモデルを確立します(顧客チャーン警告、不正検出、買い物かご分析、マーケティングレスポンスなど)

。6モデル結果の解釈と評価、ビジネスエキスパートがビジネスを行う解釈と結果の評価

4.ビッグデータ分析シナリオとモデルアプリケーション

データ分析とモデリングでは、まずビジネス要件を明確にし、次に記述分析または予測分析を選択する必要があります。分析の目的が顧客の行動パターンを説明することである場合、記述的データ分析が使用され、記述的分析は相関ルール、シーケンスルール、クラスタリング、およびその他のモデルを考慮します。

予測データ分析は、将来発生するイベントの確率を定量化することです。分類予測と回帰予測の2つの主要な予測分析モデルがあります。一般的な分類予測モデルでは、ターゲット変数は通常、不正の有無、損失の有無、信用の良し悪しなどのバイナリ分類変数です。回帰予測モデルでは、ターゲット変数は通常連続変数であり、一般的なものには株価予測とデフォルトの損失率予測(LGD)が含まれます。

生存分析は、イベントの結果とこの結果が表示されるまでにかかる時間の分析に重点を置いています。医学分野に由来し、治療後の患者の生存時間を調査します。生存分析は、顧客の解約時間、顧客の次の購入時間、顧客のデフォルト時間、顧客の早期ローン返済時間、顧客の次のWebサイト訪問時間などを予測するためにも使用できます。

一般的なデータ分析アプリケーションのシナリオは次のとおりです

。1マーケティング

マーケティングの応答分析モデリング(ロジスティック回帰、意思決定ツリー)

ネットリフト分析モデリング(関連付けルール)

顧客維持分析モデリング(カプランメル分析、ニューラルネットワーク)

ショッピングブルー分析(関連付け分析アプリオリ)

自動推奨システム(協調フィルタリング推奨、コンテンツベースの推奨、人口統計学的推奨、知識ベースの推奨、組み合わせ推奨、相関ルール)

顧客のセグメンテーション(クラスタリング)

解約予測(ロジスティック回帰)

2リスク管理

顧客の信用リスクスコア(SVM、意思決定ツリー、ニューラルネットワーク)

市場リスクスコアモデリング(ロジスティック回帰と意思決定ツリー)

運用リスクスコアモデリング(SVM)

詐欺検出(ディシジョンツリー、クラスタリング、ソーシャルネットワーク)

V.データモデル評価の

方法1 AUC値の判別方法

 



AUC 0.7未満弱認識

0.7~0.8認識薬学的との間のAUC

同定する0.8~0.9優れた能力との間のAUC

0.9モデル予想外よりAUCを大きくを

2KS判別

0.2が良好な予測可能性を表すであろうよりも、KS値より大きい

元の18件の記事を公開 賞賛4件 40,000回以上の閲覧

おすすめ

転載: blog.csdn.net/caoming51021/article/details/105540695