それを学ぶために、以前の研究のためのライブラリ、軽量について話しました。
インストールはおよそ、シンプルで話をされていません。しかし、あなたが最初のライブラリscikit-学ぶインストールするnumpyのとパンダのライブラリをインストールする必要があります。
アナコンダは、その後、インストールされた場合は、このライブラリが付属しています。
-------------------------------------------------- -------------------------------------------------- ------
図1に示すように、第1辞書特徴抽出
効果:のための辞書データの特徴量抽出。
API:sklearn.feature_extraction.DictVectorizer
フロー:1、インスタンス化するクラスDictVectorizer()
図2に示すように、入力データ、及び変換方式fit_transormを呼び出し
コードの場合:
1 から sklearn.feature_extraction インポートDictVectorizer 2 3。 DEF )dictvec(: 4 '' ' 5。 辞書データ抽出 6。 :戻り:なし 。7 ' '' 8 #はインスタンス化 。9 辞書= DictVectorizer() 10 11。 #のコールfit_transorm 12は、 データ=辞書.fit_transform([{ ' 名前':'X '、' スコア':80}、{ ' 名前':' Y' ' スコア':90}、{ ' 名前':' Z ' ' スコア':100 }]) 13 14 プリント(データ) 15 16 戻りなし 17 18 なら __name__ == ' __main__ ' : 19 dictvec()
1.0の値は、行0、列0を示している(0,0)のような出力結果が座標を取得するために、括弧の前にあるスパース行列であり、後者の図は、座標の値で見ることができます。
他の座標(0,1)、(0,2)、等としてリストされていないデフォルト値は0です。
まばらなパラメータDictVectorizer()は偽、そう簡単に読める結果に設定されています。
2、テキスト特徴抽出
効果:上のテキストデータを抽出
API:sklearn.feature_extraction.text.CountVectorizer
コードには2件の記事があると仮定します。「人生はshortmですが、私はPythonのように」と「人生は長すぎる、私は嫌いのPython」を
1 から sklearn.feature_extraction.text インポートCountVectorizer 2 。3 DEFのcountvec(): 4 '' ' 5 テキスト特徴量抽出 6。 :戻り:なし 。7 ' '' 8 #インスタンス化 。9 CV = CountVectorizer() 10 。11 #コールfit_transorm 12は 、データcv.fit_transform =([ ' 人生はshortm IS、I Pythonのような'、' 生命IS長すぎる、私は、Pythonを嫌い' ]) 13が 14 印刷(データ) 15 16 リターンなし 17 18 もし __name__ == ' __main__ ' : 19 countvec()
結果および抽出辞書は、それはあなたが読みやすくなり、2次元マトリクス状に変換され、この行列を解析することは注目に値する、同じである、そして、結果は(のtoArrayに代わりスパースパラメータを設定するの、)を呼び出すことで
以下のように:
get_feature_names()特徴抽出の全てのリストであるリストを返す(本実施形態では8つの単語を抽出し、単一の文字がカウントされません)。
結果は、2つのリスト、記事に対応する各があります。最初の0の最初のリストは、最初の記事の嫌悪は、最初のリストは、最初のものはあり表し、というように、表示されません表し