Pythonの機械学習-chapter2_16

•不確実性の分類器

意思決定機能(decision_function):

バイナリ:戻り型(N_SAMPLES、)、各サンプルの浮動小数点数を返す、浮動小数点数の符号が予測された分類を表す、サイズ値は、信頼度を表します。

複数の分類:戻り型(n_samples、n_classes)、「OKスコア」の各カテゴリに各列に相当する、より高いカテゴリスコアのより大きな可能性

予測確率(predict_proba):

バイナリ:戻り型(n_samples、2)は、各サンプルのための2つの数を返し、最初の番号は第一のタイプの推定確率であり、第二数は、第二のクラスの推定確率です。

複数の分類:戻り型(n_samples、n_classes)、各列の予測確率に対応する各カテゴリ、より大きい確率予測値クラスの可能性ています。

 

•要約を教師あり学習

KNNは:小さなデータセットの場合、理解しやすい良いベンチマークモデルです。

線形モデル:非常に大規模なデータセットのために、また、高次元のデータを、選択の非常に信頼性の高い方法で使用されています。

ナイーブベイズ:非常に大規模なデータセットのために、さらに高次元のデータで使用され、それはより速く線形モデルの速度よりも、分類にのみ適用可能であるが、線形モデルの精度よりも低いです。

ツリー:データなしスケーリングは、高速で、良い視覚効果は、簡単に説明しました。

ランダムフォレスト:高次元の疎なデータセットに適していない、より良い単一のツリー、データなしのスケーリングの効果より。

グラデーションツリーリフティング:精度、わずかに速くよりランダムフォレスト予測、トレーニングランダム森より遅く、より多くのパラメータを調整する必要があります。

SVMは:中規模のデータセットに適した同様の特徴は、効果は非常に強く、このようなデータセットは、データの必要なスケーリングは、他のパラメータを調整する必要があります。

ニューラルネットワーク:その複雑なモデルは、特に大規模なデータセットのために、構築することができ、機密データのスケーリング、パラメータを調整する必要があります。

新しいデータセットの顔は、一般的に、より複雑なモデルを考え、単純なモデル(線形モデル、ナイーブベイズ、KNN)を開始し、観察した結果で始まる(ランダムフォレスト、勾配ホイスト、SVM、神経ネットワーク)。

おすすめ

転載: www.cnblogs.com/bozi/p/12336635.html