機械学習礎石林玄ティエンは、学習の4-実現可能性を指摘します

レッスンは、機械学習は、異なる種類に分けることができます導入されました。その中でも、バイナリ分類の学習指導や回帰分析では、最も一般的で最も重要な機械学習の問題です。このレッスンでは、我々は問題は、機械学習を用いて解くことができるかどうかを議論するために、機械学習の可能性を紹介します。

一、学習が不可能です

まず、二乗されたラベルとラベル3 -1 1の3個の正方形があり、以下に示すように、例を考えます。6つのサンプルは、ラベルに対応する抽出機能には、右の予測-1または+1を乗属しますか?その結果、対称性に基づいている場合、我々は1にそれを返します。左上隅の正方形が黒であるかどうかに基づいている場合、我々は-1に戻します。また、さらに異なる特性、得られた異なる結果の場合に応じが分類されます。6つの学習サンプルのために、我々は選択したモデルは、非常に良好な分類結果を持っているので、また、これらの一見分類の結果は、正しいと合理的です。

Xは、三次元バイナリ入力、であり、Dは、5個の学習サンプルを有する入力に対応する8があり、数学のバイナリ比較例を見てみましょう。次に、Yを対応するトレーニングサンプルの出力は8つの仮説は、8つのD上の仮説が存在すると仮定すると、カテゴリ5つのトレーニングサンプルとしての効果が完全に正確です。しかし、他の3つのテストデータに、異なる仮説のパフォーマンスが混入されています。既知のデータDにG F、未知のデータではなく、D以外の、G Fは必ずしも成り立ちません。機械学習目標、それは我々が希望が未知のデータに対して実際の結果を予測することができます選択したモデルではなく、Dを設定し、既知のデータで最高の結果を求めているよりも、一貫性のあるさ

この例では不可能であると思われる、唯一のD.のために良い分類結果を保証することができ、我々は近い目標関数にDの外のデータが欲しい、教えてくれる 機械学習と呼ばれるこの機能は、空きランチ(ノーフリーランチ)の定理ではありません。NFL定理は、学習アルゴリズムは常にあらゆる分野で最も正確な学習を生み出すことができないことを示しています。通常、学習アルゴリズムと呼ば良く、しかし特定の問題なので、上の特定の事前情報、データの配布、訓練サンプル数、対価または報酬の機能とのために、他のアルゴリズムよりも「優れた」です。この例から、NFLは、機械学習アルゴリズムは、それがDまたは予測の外側に設定されたデータを分類することができるようになります保証することはできませんについて説明し、いくつかの仮定を除いて、私たちが存在することになる、正しいです。

救助に二、確率

結論から派生:トレーニングセットD以外のサンプルに、機械学習モデルは非常に困難である、それは予測または正しい分類することは不可能と思われます。いくつかの推論または未知の標的関数fの方法を行うことができます任意のツールは、当社の機械学習モデルはそれに便利になることを聞かせて、ありますか?

たくさんのオレンジ色のボールと緑のボールジャー(の数をカウントするためにたくさん)との1がある場合、我々は、オレンジ色のボールのuの割合を推測することはできませんか?統計的アプローチは、次いで、略Vオレンジボールジャーの割合を推定し、N Vボールオレンジボールの比を計算する、サンプルとして、Nボールジャーからランダムに取り出されます。

学習に三、接続

下面,我们将罐子的内容对应到机器学习的概念上来。机器学习中hypothesis与目标函数相等的可能性,罐子里的一颗颗弹珠类比于机器学习数据x;选择一个h,对于一个x,当f(x)==g(x)时,把该弹珠涂成绿色,否则为橙色;从罐子中抽取的N个球类比于机器学习的训练样本D,且这两种抽样的样本与总体样本之间都是独立同分布的。所以呢,如果样本N够大,且是独立同分布的,那么,从样本中h(x)=f(x)的概率就能推导在抽样样本外的所有样本中h(x)=f(x)的概率是多少。

映射中最关键的点是讲抽样中橙球的概率理解为样本数据集D上h(x)错误的概率,以此推算出在所有数据上h(x)错误的概率,这也是机器学习能够工作的本质,即我们为啥在采样数据上得到了一个假设,就可以推到全局呢?因为两者的错误率是PAC的,只要我们保证前者小,后者也就小了。

这里我们引入两个值Ein(h)和Eout(h)。Ein(h)表示在抽样样本中,h(x)与f(x)不相等的概率;Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率是多少。

四、Connection to Real Learning

如果有一个h在你的资料上与f完全一致,那么h一定是最好的?

答案是不一定,就想抛硬币时,连续5次正面的硬币一定比其他硬币要好吗?

也就是说,不同的数据集Dn,对于不同的hypothesis,有可能成为Bad Data。只要Dn在某个hypothesis上是Bad Data,那么Dn就是Bad Data。只有当Dn在所有的hypothesis上都是好的数据,才说明Dn不是Bad Data,可以自由选择演算法A进行建模。那么,根据Hoeffding’s inequality,Bad Data的上界可以表示为连级(union bound)的形式:

其中,M是hypothesis的个数,N是样本D的数量,ϵ是参数。该union bound表明,当M有限,且N足够大的时候,Bad Data出现的概率就更低了,即能保证D对于所有的h都有EinEout,满足PAC,演算法A的选择不受限制。那么满足这种union bound的情况,我们就可以和之前一样,选取一个合理的演算法(PLA/pocket),选择使Ein最小的hm作为矩g,一般能够保证gf,即有不错的泛化能力。

所以,如果hypothesis的个数M是有限的,N足够大,那么通过演算法A任意选择一个矩g,都有EinEout成立;同时,如果找到一个矩g,使Ein0,PAC就能保证Eout0。至此,就证明了机器学习是可行的。

但是,如上面的学习流程图右下角所示,如果M是无数个,例如之前介绍的PLA直线有无数条,是否这些推论就不成立了呢?是否机器就不能进行学习呢?这些内容和问题,我们下节课再介绍。

五、总结

本节课主要介绍了机器学习的可行性。首先引入NFL定理,说明机器学习无法找到一个矩g能够完全和目标函数f一样。接着介绍了可以采用一些统计上的假设,例如Hoeffding不等式,建立EinEout的联系,证明对于某个h,当N足够大的时候,EinEout是PAC的。最后,对于h个数很多的情况,只要有h个数M是有限的,且N足够大,就能保证EinEout,证明机器学习是可行的。

おすすめ

転載: www.cnblogs.com/cchenyang/p/11459124.html