1.1ようこそ
機械学習アルゴリズムの生活の中で使用されます:
(1)オープングーグル、ビングは、彼らは良い学習アルゴリズムを持っているからこそ、あなたが必要なものを検索します
(2)あなたはスパムの多くをフィルタリングすることができ、電子メールスパムフィルタを読むたびに、
それはとても人気がある理由は、機械学習します:
(1)人工知能、フィールドで使用される機械学習
AとBの間の最短経路を検索し、ウェブ検索、写真のタグ付け、アンチスパム
(2)すべての部門と基礎科学を含みます
データベースマイニング
電子カルテ:医学知識の医療記録となり
計算生物学:生物学者によって収集された遺伝子配列データ、DNAシーケンシングの数が多い、というように、マシンが実行されているアルゴリズムは、私たちはより良い人間のゲノムを理解することができます
エンジニアリングは、エンジニアリングのすべての分野で、我々はより大きく、より大規模なデータセットを持って、我々はデータを解釈する学習アルゴリズムを使用しようとしました
1.2機械学習とは何でしょうか?
1.2.1機械学習は、広く受け入れられている定義ではありません
アーサー・サミュエルから機械学習の最初の定義。彼は、コンピュータ学習の場を与え、特定のプログラミングを行う場合のように機械学習を定義しました。
カーネギーメロン大学からトム・ミッチェル、によって提示された他の者の最後のポイントを定義し、機械学習のトム定義は良い学習問題として定義され、彼は、プログラムが経験Eから学ぶために考えられていると述べ、処理時にE、Pの経験の後に評価、プログラム実行後にTが向上した、及び場合にのみあればT、パフォーマンスメトリックPを達成するため、タスクを解決します。
主な二つのタイプは、我々は教師あり学習と教師なし学習を呼んでいる1.2.2
アイデアは、私たちがどのようにタスクを完了するためにコンピュータをお教えします、教師付き学習を意味するが、教師なし学習では、我々はそれ自分自身の学習するつもり。
1.3教師付き学習(教師付き学習)
例1:予測料金
最近、学生はオレゴン州ポートランド研究所からいくつかのデータ・レートを収集しました。横軸は、家の面積を表し、単位はドルの価格は、単位数千人を表し平方フィートの垂直軸です:あなたはこのようになり、描かれたこれらのデータを置きます。あなたは友人を持っている場合、彼は750平方フィートの家を持って、そして今、彼は家を販売したい、このデータセットに基づいて、彼はこの家を売るためにどのくらい知りたいと思いました。
あなたは、これが唯一のアルゴリズムではありませんが、この家はもちろん150,000 $ $$を販売するかもしれない、私たちは推測することができ、このラインによると、直線を当てはめ、データのこのセット、または他の言葉で直線を描くことができます。例えば、私たちは、直線が良いかもしれ合わせて二次方程式で、データに適合していない、よりよいがあるかもしれません。二次方程式のグラフによると、私たちは、この点から推測することができ、この家はほぼ$ $$ 200,000販売することができます。その後、私たちは収まるように、線形または二次方程式を使用する方法を決定、学習アルゴリズムを選択する方法について説明します。2つのシナリオでは、販売のための友人の家は、より合理的にするがあります。これらは、内部のアルゴリズムを学ぶのに良い例です。これらは、教師付き学習の例です。
例2:乳癌予報:の誰かが危険であり、乳房腫瘍を検出する場合は、良性かどうかの乳房の医療記録を見ることで推測したいとしましょう、悪性有害と良性腫瘍はそれほど大きくない害
縦軸Iは、0と1のマーク又は悪性れない表しで横軸は、腫瘍の大きさを表します。悪性腫瘍が悪性または0などの良性ない1で示されている場合我々は、癌を見ていました。
今、私たちは友人が残念ながら、乳房の腫瘍をチェックしてください持っています。のは、彼女はおそらく、このような大きな腫瘍だとしましょう、そして、機械学習の問題は、あなたが、腫瘍が悪性か良性である確率を推定することができるということです。利用規約、これは分類問題です。
分類は、我々は、離散出力値を推測しようとしていることを意味:0または1良性または悪性の、および分類問題では実際には、出力が二つ以上の値であってもよいです。あなたは良性の乳房1の代わりに個別の出力を0,1,2,3.0予測したいので、例えば、乳癌は、3を有していても良いことは、クラス1、クラス2、クラス3のために二次がん、3を表し、それはまたです分類問題。
今私は、データを表現するために異なる記号を使用しています。私たちが見てきたので、私は良性と悪性腫瘍を表現するために異なる記号を使用し、腫瘍の特徴の大きさは、悪性または良性の区別、ので、私は描くことができます。またはサンプルがネガティブとポジティブサンプルは、今私たちは、すべてのXを描画していないされていることを、Oによって変更良性腫瘍は、悪性はXで表され続けます 悪性腫瘍かどうかを予測します。
予測された特性の腫瘍複数:例3
いくつかの他の機械学習の問題では、複数の機能を体験することがあります。例えば、我々は、腫瘍の大きさを知っているだけでなく、患者に対応する年齢を知っています。他の機械学習の問題では、我々は通常より多くの機能を持っている、そのような質量密度、腫瘍細胞の大きさと一貫性の一貫性を形成し、その上、他があるとして、通常、これらの機能を、この問題を研究し、私の友人機能。これは、最も興味深い学習アルゴリズムのいずれかを学ぶために私たちは程度です。
アルゴリズムは、三種類の二種類又は更に特徴の無数を扱うことができるとの特性の5種類、処理することができます。
我々は、5つの異なる特性、二つの軸と右の3種類の合計を記載されているが、いくつかの学習の問題では、あなたは機能の以上3または5種類を使用します。代わりに、あなたはあなたのアルゴリズムは、多くの機能を使用できるように、機能の無限の多様を使用したい、または手がかりは投機を行います。そして、あなたは、これらの機能が問題を抱えて保存するためにも、どのような機能を無制限に扱うか、どのようにコンピュータのメモリは確かに十分ではありません。私たちは、後でコンピュータ処理機能を無制限に可能に巧妙な数学的技術を持ってサポートベクターマシンと呼ばれるアルゴリズムを、話しましょう。
基本的な考え方を学ぶ監修:各サンプルについて、当社のデータセットが対応する「権利」の答えを持って、我々は、サンプルに基づいて予測を行うよ、家のような例や腫瘍がありません。
回帰問題は、すなわち回帰によって連続出力を起動します。
分類の問題は、目標は、結果の離散集合の導入です。
クイズ:
-
あなたが同じ商品の多数を持っていますか、あなたは、多くの作品を販売するために、次の3ヶ月を予測したい、あなたが販売することを待っているの同一商品の断片の数千を持っていることを想像?
-
あなたは多くの顧客を持っていますか、あなたは、各ユーザーのアカウントをチェックするためにソフトウェアを書きたいです。各アカウントについて、あなたは彼らが盗まれたかどうかを確認したいですか?
この2つの問題という、彼らは分類または回帰に属していますか?
まず、回帰問題は、あなたが知っているので、私は貨物の作品の数千人を持っている場合、私は実数、連続値としてそれを見るでしょう。したがって、販売アイテムの数、ならびに連続値。
質問2は、私は値を予測するため、盗まれた1つのアカウントで示される、盗まれていないアカウントを表現するために0を使用して、分類問題です。私たちは、アカウントによると盗まれていたそうだとすれば、彼らは離散値の数が少ないので、私はそれが分類問題として分類置くためのアカウントは、0または1であると思います0または1に設定し、その後、アルゴリズムを使用します。
これらは、教師付き学習コンテンツです。
1.4教師なし学習(教師なし学習)
教師あり学習、リコールデータセット、各データセットの場合は、ああ、このデータは、負または正と呼ばれる標準となっている、それが良性か悪性です。だから、各データの管理学習のために、我々は明らかに正しい答えに対応する訓練セットは、良性または悪性であることを知っています。
教師なし学習任意のラベルのない、または同じラベルやタグを持ってはいません。だから我々は、データセットを知っているが、対処する方法がわからない、また各データはイエスを指すものを語りました。他の人は、それがデータの集合であり、知りません。あなたはそれがデータから構造のいくつかの種類を見つけますか?データ収集のために、教師なし学習は、二つの異なるクラスタの集計データを決定することができるであろう。これは、その2つの間に別の違いだ、です。はい、教師なし学習アルゴリズムは、二つの異なるクラスタにこれらのデータを置いてもよいです。だから、クラスタリングアルゴリズムと呼ばれます。
一つの例は、Googleニュースのクラスタアプリケーションです。あなたが前にそれを見たことがない場合は、確認するには、このURLのURLのnews.google.comに行くことができます。Googleニュースは毎日、たくさん、ニュースコンテンツネットワークの多くを集めます。そして、それに関連するニュースで構成されるこれらのニュースグループ、。これを行うには、Googleニュースは、自動的にそれらを置く一緒にクラスタ化されたニュース、イベント、たくさんのための検索です。そのため、これらのニュースイベントは、すべて同じトピックなので、一緒に表示されています。
1.4.1教師なし学習
私たちは情報のいくつかの事前のアルゴリズムに知らされていないので、例えば、これは、人々の第二のカテゴリーである人物の第一種は、そこに第三のカテゴリーがあり、というように、です。私達はちょうどはい、これはデータの束である、と言います。私はそこにどのようなデータを知りません。私は、どのようなタイプであるか分かりません。私も何が人々のさまざまな種類、そしてどのようなこれらのタイプはいを知りません。しかし、あなたは自動的にその中のデータの構造を見つけることができますか?あなたは自動的にクラスにそれらの個人をクラスタリングすることを、私は事前に知ることはできません。我々は、データセットのアルゴリズム正解のデータに応答する必要はありませんので、これは教師なし学習なので。
1.4.2教師なし学習やクラスタリングアプリケーション
大規模なコンピュータ・クラスタを整理するために使用されます。私は、彼らはあなたがマシンが一緒に動作させることができれば、簡単に共同作業を解決したいマシンのどのようなコンピュータの大規模なクラスタがあり、大規模なデータセンター内の何人かの友人を持って、あなたはあなたの仕事より効率的なデータセンターを作ることができます。第二のアプリケーションは、ソーシャルネットワークの分析です。だからあなたの友人はあなたが頻繁にメール、またはFacebookの友達に送るなど、情報を知られては、Google +友人のサークル、我々は自動的に友人のグループ与えることができますか?人々はお互いに精通しているところである各グループは、グループの所有者を知っていますか?市場細分化があります。多くの企業は、顧客情報を格納する大規模なデータベースを持っています。だから、あなたは自動的に、より効果的に販売したり、異なる市場セグメントで販売することができ、自動的に異なる市場セグメントに顧客を入れ、自動的に各カテゴリを発見し、そして、顧客データセットを取得することができます。我々はすべての顧客データを持っているので、これは、また、教師なし学習ですが、私たちはどのようなデータセットをそれぞれ事前にどのような市場セグメントを知っているだけでなく、当社の顧客はありません。私たちは、その上の番号2の市場で、ナンバーワンの市場セグメントにあるか分かりません。その後、我々は、アルゴリズムがデータから、それをすべて見つけてみましょう必要があります。最後に、教師なし学習も天文学データ解析のために使用することができ、クラスタリングアルゴリズムは、銀河が生まれている方法を説明するために、これらの驚くべき、面白い、有益な理論を与えます。これらは、クラスタリングの例であり、教師なし学習一つだけをクラスタリング。
Q