機械学習アルゴリズムは、それに相当しているのですか?

現在の推薦システムでは、マシンを使用することを学ぶの多くは、いくつかは、学習の深さを使用していました。だから、機械学習アルゴリズムは、それの山に相当しているのですか?

答えは:≠機械学習アルゴリズム。

≠機械学習アルゴリズム

私たちは教科書や大学のシラバスを開くと、アルゴリズムの束を一覧表示し、通常は見られています。

また、これはあなたがそのような誤解を引き起こしたことができます:機械学習は、一連のアルゴリズムを持つことです。実際には、機械学習アルゴリズムで停止していない、我々は問題の包括的解決策として、それを見ることができます。私たちは、別のアルゴリズムを参照してくださいが、氷山の問題であり、挑戦の残りの部分は、私たちが正しく、これらのアルゴリズムを使用して行う方法です。

なぜこれほど不思議なマシンを学びますか?

機械学習、データ解析は、コンピュータを教え、人々が練習か決定するために予測する法則を発見することです。

本当の意味での機械学習のために、コンピュータは、法律の分析では得られないデータをプログラムする能力を持っている必要があります。

例:

子供が自宅で遊んでいる場合、突然、彼はろうそくを見ました!そこで彼は、ろうそくに向かってゆっくりと歩きました。
ここに画像を挿入説明

好奇心から、彼はろうそくで指を指していた。
「WOW!」彼は叫んだ、と背中に手;
「!ハム......赤く点灯し、押します何かは」
二日後、彼は見に台所に行ってきましたストーブへ。また、彼は非常に興味がありました。

彼は非常に、非常に興味があった、と私の心は触れたくない、
突然、彼はこの事が輝く、赤で発見しました!
「ああ......」彼は、「私は再び痛みをしないでください!」、自分自身に言った
彼は、赤と輝くものだろう「痛み」を思い出したので、彼はストーブの他の部分に移動させました。
ここに画像を挿入説明
子供たちは呼んで結論のいくつかの種類に自分のろうそくから推測するので、より明確にそれを入れて、「機械学習。」

結論は次のとおりです。「赤点灯しますと」手段「痛み」。

離れて、炉から、両親は彼を警告しているため子供が、それはではなく、機械学習「プログラムの明確な指示」である場合。

重要な用語

モデル - データに由来するパターンのセット。

アルゴリズム - 特定のMLモデルのための訓練の過程。

トレーニングデータ - モデルを訓練するために使用されるデータ収集アルゴリズム。

テストデータ - モデルの性能の客観的評価のための新しいデータセット。

前記 - モデル変数を訓練するために使用されるデータセット。

ターゲット変数 - 予測のための特定の変数。

例:
ここに画像を挿入説明

假设我们有一组包含150个小学生信息的数据集,现在希望通过他们的年龄、性别和体重预测他们的身高。

我们现在有150组数据点、1个目标变量(身高)、3个特征(年龄、性别、重量)。接下来会把所有数据分为两个子集:

其中,120组会被用来训练不同的模型(训练集),其余的30组用来选择最佳模型(测试集)。

机器学习任务

在学术界,机器学习始于并会一直专注于其中某个算法。但是,在工业界,我们首先得为工作所需选择正确的机器学习任务。

· 任务是算法的特定目标。

·只要选择正确的任务,算法就可以交换进出完成任务。

·实际上,我们会尝试多种不同算法,因为很可能我们一开始不知道哪种算法最适合数据集。

机器学习两种最常见的任务类别是监督学习和无监督学习。

监督学习

监督学习包括面向“标记”好的数据的任务(换言之,我们有一个目标变量)。

· 在实践中,它通常是用作建模预测的高级形式。

· 每一组数据点必须正确标记。

· 只有这样才能建立一个预测模型,因为我们必须在训练时告诉算法什么是“正确”的(也就是我们说的“监督”)。

· 回归是建模连续目标变量的任务。

·分类是对分类目标变量进行建模的任务。
ロジスティック回帰

无监督学习

无监督学习包括面向“未标记”数据的任务(换言之,没有目标变量)。

· 在实践中,这种形式通常用作自动数据分析或自动信号提取。

· 未标记的数据没有预先确定的“正确答案”。

· 允许算法直接从数据中学习模式(即没有“监督”)。

· 聚类是最常见的无监督学习任务,用于查找数据中的组。

クラスタリング

机器学习的三要素

如何始终如一地构建有效的模型以获得最佳效果。

#1:熟练的厨师(人类指导)

首先,即使我们是在“教电脑自学”,但在这个过程中,人的指导也起着很大的作用。

正如我们所看到的,您需要在此过程中做出无数项决策。

事实上,第一个重大决策就是该如何规划我们的项目,从而确保成功。

#2:新鲜食材(干净且相关的数据)

第二个基本要素是数据的质量。

无论我们使用哪种算法,垃圾输入=垃圾输出。

专业的数据科学家将大部分时间花在了解数据,清理数据和设计新功能上。

#3:不要过度烹饪(避免过度拟合)

機械学習の一つは、オーバーフィッティングの最も危険な罠です。オーバーフィットモデルではなく、本当の基礎の学習モードよりも、ノイズのトレーニングセットを「記憶」します。

数百万ドルの費用がかかる過剰適合・ヘッジファンド。
・病院で過学習することは死亡、数千につながる可能性があります。

ほとんどのアプリケーションでは、過学習がミスを避けるためです。

おすすめ

転載: blog.51cto.com/13945147/2440246