機械学習のPython入門

  機械学習は確率論、統計、近似理論、凸解析、アルゴリズムの複雑さの理論と他の科目を含む、クロス懲戒の複数のフィールドです。どのようにコンピュータシミュレーションや人間の学習行動の実現に特化した継続的にパフォーマンスを向上させるために再編成し、既存の知識構造、新しい知識や技能を習得するためには、。データから知識を抽出し、またとして知られている予測分析統計的学習

  それは、それは知的な基本的な方法のコンピュータを作るために人工知能の中核です。

  マシンを見てみましょう、それを学ぶために。


ワン:機械学習の学習が発生し、問題を解決することができること

1.原因

  機械学習は今より人気があり、現実の生活だけでなく、高度な科学的問題を使用することに貢献しました。

  初期の頃は、多くのシステムや手順を人為的に、しかし、決定ルールの人間の欠点の意思決定ルールを設定しています。一方、政策立案者はまた、意思決定プロセスの深い理解を持っている必要があります。タスクが少し変更され、あなたがシステムを書き換える必要があるかもしれません。

  一つの例は、自動的に機械ができるので、時々マシンと非常に複雑な操作をする必要があり、人間の顔の人間とコンピュータの説明が異なる場合、顔認識であり、コンピュータの学習機械を作る機械を必要と学習との認識が必要です。だから、機械学習の学習が必要です。

解決することができる。2.機械学習の問題

  最も成功した機械学習アルゴリズムが知られている例と結果の一般化に由来し、意思決定のアルゴリズムのプロセスを自動化することができます。このアルゴリズムは、と呼ばれる教師付き学習

  このアルゴリズム、意図アルゴリズムにユーザ一対の入出力において、アルゴリズムは、所望の出力および入力方法を得るために、この方法は、未知の既知の推定によれば、他のデータセットに適用することができます。これは、アルゴリズムを監督教師のようなものです。
  教師付き学習アルゴリズムのインスタンスは:銀行のクレジットカードの真偽をテストし、腫瘍の大きさを決定し、封筒にコード識別を圧縮します。

  別のアルゴリズムは、教師なし学習アルゴリズムです。それを評価することは困難であるので、このアルゴリズムは、入力データだけに、出力データが提供されていない知られています。

  教師なし学習アルゴリズムの例:グループの異なるタイプに、一連のブログのテーマ、顧客や友人を決定し、異常パターン検出サイトを参照してください。

  表形式で入力されたデータは、各データポイントはラインを表すために、プロパティは、列を表すデータを表し、有用で表します。

  機械学習では、各エンティティは、行または各呼ばれるサンプルまたはデータポイントと呼ばれる(属性は、これらのエンティティのいずれかを記載する)、および各列の特徴

  あなたは、機械学習アルゴリズムを機械学習モデルを構築するのに十分な情報の有効なセットを、持っている必要があります。


2:なぜあなたは、機械学習のPythonなどの言語を選びました

  強力なpythonの両方の汎用プログラミング言語、だけでなく、ドメイン固有のスクリプト言語の使いやすさ。多くの図書館は、その主な利点は、コードと直接対話する端末または他の類似のJupyterノートツールを使用することで使用して、あります。


III:機械学習共有ライブラリの概要

1.scikit-学びます

  説明:これは、オープンソースのPythonライブラリは、最も先進的な機械学習アルゴリズムでなく、最も有名なのpython機械学習ライブラリが含まれています。

  ユーザーズ・ガイドhttp://scikit-learn.org/stable/user_guide.html


  インストールはこちらscikitは:アナコンダは、より多くのデータ解析ライブラリを解放するのpythonのコレクションに直接取り付けが必要なすべての機械学習ライブラリが含まれています。

2.Jupyterノート

  これは、ブラウザでコードを実行するためのインタラクティブな環境で、多くの便利なインタラクティブな機能がありますが、コード、テキストや画像を統合するために使用することができます。

3.NumPy

  これは、基本的なデータ構造です。特徴は、多次元配列、高度な数学関数、擬似乱数発生器を含みます。すべてのデータの形式は、numpyの多次元配列に翻訳されなければなりません。「numpyの配列」またはと呼ばれる「アレイ。」

4.SciPy

  科学技術計算のための関数scipyのダウンロードのpythonのコレクションです。これは、線形代数プログラム、数学関数の最適化、信号処理、特殊な機能や統計的分布関数を進んでいます。

5.matplotlib

  matplotlibのPythonは主要な科学的グラフィックスライブラリであり、データ解析機能は、可視化コンテンツを生成します。%matplotlibのノート一般的な使用および%matplotlibのインラインコマンド画像がブラウザに表示されています。

6.pandas

  パンダは、データ処理および分析のためのPythonライブラリです。これは、データフレームと呼ばれるデータ構造に基づいています。データベース内の2次元テーブルの構造に類似。

7.mglearn

  ユーティリティライブラリは、ユーザーがすぐに図面を美化、またはユーザーは、いくつかの興味深い数字を取得します。

8.機械学習の導入共通ライブラリ

import sys
import pandas as pd
import matplotlib
import numpy as np
import scipy as sp
import ipython
import sklearn 


4:機械学習プロセス

1.本当の問題は、数学の問題に抽象化されました

  本当の問題は、数学の問題に抽象化され、目標は問題が分類または回帰、あるいは問題のクラスターであるかの数学的な問題があり、問題の特定のタイプ、およびデータを使用できるため、問題を見つけます。

2.データの取得

  最初の一歩を機械学習は、収集したデータの質と量を直接予測モデルを構築できるかどうかを判断し、データを収集することで、我々は、データの重複排除を収集し、標準化、バグ修正、標準データを取得し、の多次元配列ます。テキストファイル(CSV、TXT、JSON)またはデータベースに保存。

  取得したデータが通過生データから生データからテストし、生データと特徴データ抽出技術訓練を取得含まれていることをここで注意してください。データは、機械学習の結果の上限を決定するアルゴリズムとちょうどできるだけこの限界に近づい。データが大きすぎる場合は次元削減または分散機械学習システムを利用して、学習サンプルを減らすことを検討します。

3.分析

  主に、各列にあるデータ分布は、最大、最小、平均、分散、メジアン、三分位、四分位数、ある特定の値(例えば、ゼロ値)または割合を見つけるためにように。最良の方法は、これらのデータの視覚的かつ直感的な分析を理解することです。

4.機能の動作

  建設エンジニアリング機能は、生データ、特徴抽出、特徴選択の機能が含まれています。機能は、プロジェクトの効果を可能にし、アルゴリズムの性能が大幅に改善されている、効果は、複雑なモデルの効果の単純なモデルよりも時々良くすることができます。データマイニングと上記の機能のエンジニアリングの大半を費やしたが、機械学習は非常に基本的かつ不可欠なステップです等のデータの前処理、データクリーニング、顕著な特徴をスクリーニングし、廃棄非重要な機能、非常に重要です。

5.ベクトル化

  モデルを防ぐために、機能の表現能力を高めることを目的とした特徴抽出再処理の結果を定量化するのは、複雑な問題を単純化するために、学ぶには余りにも複雑かつ困難です。

6.スプリットデータセット

  データは、2つの部分に分割されます。一方では、モデルを訓練するために使用され、一方で我々のモデルの適合性をテストするために私たちの訓練を受けたモデルの性能を評価するために使用されます。

7.モデルトレーニング

  トレーニングモデルの前に、そのようなので、上の線形回帰、決定木、ランダムフォレスト、ロジスティック回帰、勾配アップグレード、SVMとして、適切なアルゴリズムを決定します。最良の方法は、異なる様々なアルゴリズムをテストし、そしてによってクロスバリデーション最適なものを選択します。しかし、トレーニングセットは、小型、高バイアス/(例えば、単純ベイズ分類器など)、低分散分類器(例えば、K最近傍分類器など)、低偏差/高分散分類器よりも優れ、容易にフィットするが、大きなトレーニングセットである場合次いで、低偏差/分散は高いため、より好適です。

8.評価

  研修終了後、研修は、モデルの良否を判定するために、実際のデータと予測データを比較することにより、モデル評価のうち、データを分割することによって行われます。一般的な5つの方法:混同マトリックス、リフト図&ローレンツ図ジニ係数、KS曲線、ROC曲線。

  あなたは、さらに訓練を向上させたい場合は評価の完了後、我々は、モデルのパラメータを調整することによって達成した後、訓練と評価のプロセスを繰り返すことができます。

9.ファイリング

  トレーニングモデルが完了した後、ファイルの異なる意味を整理して、モデルが正しく機能することを確認してください。

10.インタフェースパッケージ、オンライン

  予測を返すために、パッケージのサービス・インターフェース、モデルへの呼び出しをカプセル化することによって。ライン上の全体の機械学習モデル。

おすすめ

転載: www.cnblogs.com/ITXiaoAng/p/11618546.html