機械学習ライブラリをscikit-学びます

それを学ぶために、以前の研究のためのライブラリ、軽量について話しました。

インストールはおよそ、シンプルで話をされていません。しかし、あなたが最初のライブラリscikit-学ぶインストールするnumpyのとパンダのライブラリをインストールする必要があります。

アナコンダは、その後、インストールされた場合は、このライブラリが付属しています。

-------------------------------------------------- -------------------------------------------------- ------

図1に示すように、第1辞書特徴抽出

効果:のための辞書データの特徴量抽出。

API:sklearn.feature_extraction.DictVectorizer

 

 

フロー:1、インスタンス化するクラスDictVectorizer()

  図2に示すように、入力データ、及び変換方式fit_transormを呼び出し

コードの場合:

1  から sklearn.feature_extraction インポートDictVectorizer
 2  
3。 DEF )dictvec(:
 4      '' ' 
5。     辞書データ抽出
 6。  戻り:なし
 。7      ' '' 
8      #はインスタンス化
。9      辞書= DictVectorizer()
 10  
11。      コールfit_transorm 
12は、      データ=辞書.fit_transform([{ ' 名前''X '' スコア':80}、{ ' 名前'' Y' ' スコア':90}、{ ' 名前'' Z ' ' スコア':100 }])
 13  
14      プリント(データ)
 15  
16      戻りなし
 17  
18  なら __name__ == ' __main__ ' 19      dictvec()

 

 

 1.0の値は、行0、列0を示している(0,0)のような出力結果が座標を取得するために、括弧の前にあるスパース行列であり、後者の図は、座標の値で見ることができます。

他の座標(0,1)、(0,2)、等としてリストされていないデフォルト値は0です

まばらなパラメータDictVectorizer()は偽、そう簡単に読める結果に設定されています。

 

 

 2、テキスト特徴抽出

 

効果:上のテキストデータを抽出

API:sklearn.feature_extraction.text.CountVectorizer


コードには2件の記事があると仮定します。
「人生はshortmですが、私はPythonのように」と「人生は長すぎる、私は嫌いのPython」を
 
1  から sklearn.feature_extraction.text インポートCountVectorizer
 2  
。3  DEFのcountvec():
 4      '' ' 
5      テキスト特徴量抽出
 6。  戻り:なし
 。7      ' '' 
8      インスタンス化
。9      CV = CountVectorizer()
 10  
。11      コールfit_transorm 
12は      、データcv.fit_transform =([ ' 人生はshortm IS、I Pythonのような'' 生命IS長すぎる、私は、Pythonを嫌い' ])
 13が 
14      印刷(データ)
 15     
16      リターンなし
 17  
18  もし __name__ == ' __main__ ' 19      countvec()
 

 

 

 

結果および抽出辞書は、それはあなたが読みやすくなり、2次元マトリクス状に変換され、この行列を解析することは注目に値する、同じである、そして、結果は(のtoArrayに代わりスパースパラメータを設定するの、)を呼び出すことで
以下のように:

 

 get_feature_names()特徴抽出の全てのリストであるリストを返す(本実施形態では8つの単語を抽出し、単一の文字がカウントされません)。

結果は、2つのリスト、記事に対応する各があります。最初の0の最初のリストは、最初の記事の嫌悪は、最初のリストは、最初のものはあり表し、というように、表示されません表し

 

 

 

 

 

 

 

おすすめ

転載: www.cnblogs.com/GouQ/p/11838829.html