1、、それぞれ、どのような役割Pythonの一般的なパッケージ?
Pythonの共通パッケージ
1、numpyの(数値計算ライブラリ)
2、scipyのダウンロード(科学技術計算ライブラリ)
3、matplotlibの(ベースの可視化ライブラリ)
4、パンダ(データ処理ライブラリ)
5、Seaborn(上級可視化ライブラリ)
6、Scikit-学ぶ(人気の機械学習ライブラリー)
それぞれの役割
1は、numpyのは、機械学習とデータ科学パッケージ最も人気があり、numpyのパッケージは、多次元データの数学的な操作をサポートしています(scipyのダウンロード、matplotlibの、パンダや他のライブラリを含む、より高度な拡張ライブラリの多くのデータ構造とそれに対応する効率的な処理機能を提供し、 )numpyのライブラリに依存しています。
2、科学技術計算、支持マトリックスを提供し、そして一般的に工学で使用される線形代数、積分、補間、フィッティング、信号処理、画像処理及び他の科学的最適化機能が含まれている相関値算出モジュールのマトリクスのためにscipyのダウンロードパッケージコンピューティング;
3、パンダはデータが不足して柔軟な対応をサポートするために、データ処理機能のその富と、データ収集、強力で柔軟なデータ分析および探査ツールを管理するためのシーケンス解析機能のサポートを使用しました。
●パンダ基本的なデータ構造とデータフレームシリーズ。
●シリーズ配列は一次元配列に類似しています。
●データフレームの各列はシリーズである二次元配列と同様の二次元の表の等価。
シリーズ、パンダインデックスオブジェクトが提供され、各々が対応する一連のインデックスを有する、要素をマークしないであろう要素を見つけるために●。
●同じ(実質的に容器のシリーズ)とインデックス・シリーズの複数のデータフレーム同等の組み合わせ;
図4に示すように、主に2次元図面に使用されるだけでなく、データの可視化のためのmatplotlibのライブラリ、データ視覚化ツールの強力なライブラリは、単純な3次元グラフィックスであることができます。
5は、Seaborn matplotlibのライブラリは、高度な可視化ライブラリに基づいています。
6、Sklearn前処理、回帰、分類、クラスタリング、次元削減、およびモデル予測分析や他の強力なマシンラーニングライブラリをサポートするために、完璧な機械学習ツールボックスを提供して機械学習アルゴリズムの豊富なライブラリ、ほぼ半数このパッケージを使用して機械学習とデータ科学プロジェクト。
2、それぞれ、どのような役割sklearn共通のパッケージ?
Sklearnライブラリ構造
sklearnモジュールは、機械学習アルゴリズムの周りにもあるように、sklearnは主に、機械学習のために使用されています。分類(分類)、回帰(回帰)、クラスタリング(クラスタリング)、次元削減(次元削減)、モデル選択(モデル選択)、前処理(前処理):sklearnは、いくつかの部分に分割することができます。
1.ようにSVM(sklearn.svm.SVC等)、隣人(sklearn.neighbors)、ランダムフォレスト(sklearn.ensemble.RandomForestClassifier)を含む分類アルゴリズム。
ようにSVR(sklearn.svm.SVR)、リッジ回帰(sklearn.linear_model.Ridge)、ラッソ(sklearn.linear_model.Lasso)とを含む2回帰アルゴリズム。
図3は、K平均クラスタリングアルゴリズム(sklearn.cluster.KMeans)、スペクトルクラスタリング(sklearn.cluster.SpectralClustering)等を含みます。
前記次元削減アルゴリズムは、(例えばsklearn.decomposition.PCAなど)PCA、特徴選択(単変量特徴選択を含むsklearn.feature_selection、等)、非負行列因子分解(例えばsklearn.decomposition.NMF、LatentDirichletAllocation)を含みます。
この方法は、グリッドモデルの検索(sklearn.model_selection.GridSearchCV)、クロスバリデーション(多く、例えばsklearn.model_selection.KFold、cross_val_score)、評価指標(精度含むsklearn.model_selection.metrics、リコール、精度、等)を選択することを含みます。
6.前処理方法は、(単語のテキスト特徴抽出バッグ、TF-IDFなどを含むsklearn.feature_extraction)、特徴抽出(標準化、分類、離散化、等を含むsklearn.preprocessing、)実質的前処理方法を含みます。
機械学習アプリケーションのsklearnにおける主な手順
1.データセット:sklearn.datasetsは、基本的なデータ初心者として使用することができ、多くのデータ・セットを提供します。
2.データ前処理:sklearn.preprocessing、前記等次元削減、データの正規化、特徴抽出及び特徴変換(ワンホット)を、
モデルとトレーニングを選択します:分類、回帰、クラスタリング、積分アルゴリズムを、モデルがsklearn.linear_model、sklearn.cluster、sklearn.ensembleで主に関与しています。
4.モデル評価:精度、再現率、スコアリング方法スコアを有するアルゴリズム自体を含むsklearn.metrics、。
5. [保存と復元モデル:Pythonはメソッド(pickle.dump、pickle.load)、またはsklearn.externals.joblib(joblib.dump、joblib.load)を酸洗いすることができます。
研究のアドバイス
Sklearnは、疲れて使用するすべてのモジュールを読む時間がありません!成功は素晴らしいではありません!実際には、関連するモジュールの目的を理解するためのプロセス側を機械学習アルゴリズムの理論を学びながら最善の方法があり、思い出がより深いとなります。
深入探索:Scikit-学習&TensorFlowとハンズオン機械学習
3.アクションの正則と正則を理解する方法、正則は何ですか?
モデルパラメータの正則-Regularizationは(また、ペナルティ項又はノルムとも呼ばれる)上に嵌合回避の効果を達成するために、それによって、モデルの複雑さを低減、「数量」と「サイズ」の態様に応じて調整されます。
正則を理解する方法
私たちの目標は、損失関数(すなわちERM)を最小限に抑えるために、単純である場合には、モデルの複雑さは、モデルの全体的なパフォーマンスに影響を与えるにバインドされ、正則(すなわち構造的リスク最小化)の導入は、複雑さの測定モデルを理解することができます、経験的リスクの最小化、さらにトレーニングの最適化アルゴリズムと組み合わせます。
アクションの正則
正則化は、過剰適合が生じた避けるために、それによって、モデルの複雑さを制限することができる、モデルの理由は主に学習される過剰適合すぎるノイズ、すなわち、あまりにも複雑なモデル(簡易モデルは、データセットなどを増加させることができますオーバーフィッティング発生しないようにする方法)。
一般的なタイプの正則
(1)L1正則
モデルの複雑さを軽減するために(減少パラメータ「番号」)を間引くことにより、即ち、パラメータの値をゼロに低減することができます。
(2)L2正則
ゼロに可能なだけ近づけ、だけが、ゼロに低減決してパラメータの値を小さくする、すなわちモデルの複雑さのパラメータ「サイズ」の値を減少させることによって低減することができます。
関連概念
オーバーフィッティング、正則、経験的リスクの最小化、構造的リスクの最小化、機能の喪失、モデルの複雑さ、規範
4.どのようなバイアスと分散こと?
Datawhale優秀な回答者:群れの
説明1
バイアス偏差:正しいと予測値との間の所望のモデル(または平均値)の差。
分散の分散:フィッティングモデルのうち、予測の偏差の程度。
通訳2
バイアスと分散は、私たちの間のギャップを説明し、実際のモデルをモデル化することを学ぶには、2つの方法があります。
バイアス「は、全ての可能なすべてのモデル出力のトレーニングデータセットで訓練平均」と「真のモデル」出力値との差です。
分散は、出力値「モデルを、訓練するためのトレーニングデータの異なるセット」の違いです。
説明3
最初のエラー=バイアス+分散
誤差はモデル全体の精度を反映し、BIASは、すなわち、モデル自体の精度は、分散がすべてのモデル出力と予想モデルの出力結果との間に反射され、試料上の出力とモデルの実際の値との誤差を反映します誤差、すなわち、モデルの安定性。
より正確には3つの部分に分かれError:エラー=バイアス+分散+ノイズ、