ソースとデータの種類

既存のデータベースからのデータのほとんどは、とされていない場合、その後、あなたは爬虫類のエンジニアの多くに行くことができますが提供して集まります。また、通常の記録に由来することができる、データどこでもとにかく、ほとんどが利用可能。

データの種類

私たちは、機械学習の分類に従ってデータにデータを分割することができます。

  • 公称タイプ:ターゲット変数のタイプは、(主に分類するために使用される公称のターゲット変数タイプ)のみ、このような真と偽のような限定された目的、に焦点を当てたの公称値を結果
  • 数値:目的変数(主に数値目標変数回帰分析のために)他の0.100,42.001として、値の無限集合からの数値であってもよいです

それ自体はデータの配布

  • ディスクリート
  • 連続

だから、離散と連続データそれは何ですか?連続データの最初には、離散データは、法律規則的ではありません

  • 離散変数は、等、それはカテゴリであるかどうか、その値が唯一の天然または整数単位計算と比較することができる離散変数、例えば、クラスの大きさ、目標の数であります

  • 連続的なデータを参照する興行データで指定された範囲内の任意の値、例えば、することができ、花弁サイズ分布データ

現実世界のほとんどの機能は非連続変数の文を作るために、このような分類、テキスト、画像およびその他の機能として、連続変数ではないこれらの特性の数学的なステートメントを実行する必要があるので、特徴抽出を使用しています。Sklearn.feature_extractionが特徴抽出を提供多くの点で

特徴抽出分類変数

私たちは、データとしての都市と環境が抽出機能に辞書ます。

sklearn.feature_extraction.DictVectorizer(スパース=真)

アレイまたはマトリックスscipy.sparseにリストをマッピングするnumpyの

  • 疎行列表現がscipy.sparseに変換されるかどうかは、デフォルトで有効になって

方法

fit_transform(X、Y)

アプリケーションおよび変換マップリストX、Yは、ターゲット・タイプであります

inverse_transform(X [、dict_t

おすすめ

転載: blog.csdn.net/qq_42370150/article/details/104966365