最初のアプリケーション:アイリスカテゴリ
このケースでは、データの古典的なセットに機械学習や統計情報を虹彩(アイリス)のデータセットを、使用していました。
知人のデータ:データ、それは何ですか?
sklearn.datasets load_irisインポート データ =のload_iris() プリント(' load_irisのキー:\ N {} ' .format(data.keys()))
结果: load_irisのキー: dict_keys([ ' データ'、' 目標'、' target_names '、' DESCR '、' FEATURE_NAMEに'、' ファイル名' ])
データ:データリスト、萼の長さデータ、萼幅、長さ測定データの花びら、花弁幅
sklearn.datasets load_irisインポート データ =のload_iris() (#印刷' :\ N {} load_irisの鍵' .format(data.keys())) プリント(' load_irisのデータ:\ nは{} ' .format(データ.DATA [:5 ])) 结果: D:\ SOFTWARE \ Anaconda3 \ python.exe D: / MyCode /学習/ 11 の.py load_irisのデータ: [ 5.1 3.5 1.4 0.2 ] [ 4.9 3。 1.4 0.2 ] 、[ 4.7 3.2 1.3 0.2 ] [4.6 3.1 1.5 0.2 ] [ 5。 3.6 1.4 0.2 ]
ターゲット:結果(分類結果、三つのカテゴリーの合計、すなわち0,1,2)
sklearn.datasets load_irisインポート データ = load_iris() #プリント(' :\ N {} load_irisの鍵' .format(data.keys()))# プリント(' load_irisのデータ:\ nは{} ' .formatを( data.data [:5 ])) プリント(' load_irisの目標:\ N {} ' .format(data.target))
结果。
D:\ SOFTWARE \ Anaconda3 \ python.exe D:/MyCode/learn/11.py
load_irisのデータ:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2]
TARGET_NAME:分類名(3つの区分)
sklearn.datasets load_irisインポート データ = load_iris() #プリント(' :\ N {} load_irisの鍵' .format(data.keys()))# プリント(' load_irisのデータ:\ nは{} ' .formatを( data.data [:5 ])) #プリント(' load_irisの目標:\ N {} ' .format(data.target)) プリント(' load_irisの目標:\ N {} ' .format(data.target_names)) 结果: D:\ソフトウェア\ Anaconda3 \ python.exe D: / MyCode /学ぶ/ 11 の.py load_irisのTARGET_NAME: [ ' setosa ' ' カワラタケ' ' virginicaの' ]
DESCR:はじめにデータ
ファイル名:ファイルへのパス
FEATURE_NAMEに:データ説明
彼らの関係下図のように:
トレーニングデータとテストデータ
教師あり学習では、データは2、トレーニングデータとテストデータに分割されています。
トレーニングデータは学習をプログラムするために使用される、2つの部分にデータと結果が含まれています。
テストデータは、我々のプログラムのアルゴリズムの精度を決定するために使用します。テストセット(テストセット)または取っておく(ホールドアウトセット)テストデータ(テストデータ)として知られているモデルの性能を評価します。
train_test_splitデータセットと分割を混乱させる可能性のある関数を学習scikit。この関数は、行データとトレーニングセットとして対応するタグ、及びデータの残りの25%および試験セットとしてのそのタグの75%であろう。トレーニングセットとテストセットの分配比率は任意であることができるが、テストセットとしてデータの25%が目安です。
train_test_split使用手順は、こちらをご覧くださいhttps://blog.csdn.net/mrxjh/article/details/78481578
Train_test_split効果は次のように、x_testは、25本のデータ線を含むx_train、ラインデータの75%を含む破壊するデータの擬似乱数セットを使用することです。
sklearn.datasets load_irisをインポート からsklearn.model_selectionインポートtrain_test_split データ = load_iris() x_train、x_test、y_train、y_test = train_test_split(データ[ ' データ' ]、DATA [ ' 標的' ]、random_state = 0 ) プリント(' x_train長である:'LEN(x_train)) プリント(' x_test長さ:'LEN(x_test)) プリント(' y_train長さ:'LEN(y_train)) プリント(' y_test長さです。'、lenは(y_test)) 结果: D:\ SOFTWARE \ Anaconda3 \ python.exe D: / MyCode /学習/ 11 の.py x_train長さがある:112 x_test長さがある:38 y_train長さがある:112 y_test長さがある:38
データ分析
休止