勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

出典:新・ジウォン

この記事約4200個の単語、読書推奨10+分。

この記事では、簡単な機械学習を説明する方法を理解し、何の科学の背景を理解することはできません読者を与えるように努力します。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

 

[REVIEW]非常に古典的となっているコーセラUCバークレー校、アンドリュー・ウコースなど、他の専門家の機械学習、MIT、のコースがたくさんありますが、背景には専門家のためにある特定の科学がありますが。この記事の読者が理解できるように、何の科学の背景を話すないための方法を理解することがより簡単にできるように、この難解なコースを機械学習への試みを。

信徒への複雑な物事をシンプルに、短時間で理解し、そして突然実現表現を暴露することができ、非常に強力なスキルです。

たとえば。あなたは私たちが最短時間で、彼女はあなたの専門知識を知っているようにすることができた場合、大幅に面接の成功率を高めることができる、HRでリベラルアーツの背景に直面して機械学習技術を適用しています。

さて、マシンは、このようなAの火を学び、より多くの人々に参加したいと思います、しかし、より多くの人々を混乱させました。国民は、機械学習理由を理解することは困難であるため?このようロジスティック回帰など一口のそれらの神秘的な概念は、最終的には勾配降下は何ですか?

23歳の薬理学の学生の専門家は、彼が機械学習上のトレーニングコースに参加するために行ったとき、祖母は近代的な技術を理解していない家庭で感じたことを述べました。

そして、オードリーLorberfeldという男は、充填ハンズオン、公共および機械学習の間で分割しようとしている卒業生。この一連の記事でそう。

このシリーズの最初の講義:

  • 勾配降下
  • 直線回帰
  • ロジスティック回帰

モデルVSアルゴリズム

アルゴリズムやモデル:機械学習を理解し始める理解する前に、我々は、2つの基本的な概念を知って取得する必要があります。

私たちは、自動販売機、入力(金)、出力(コーラ)と見られてモデル化することができます。アルゴリズムは、モデルを訓練するために使用され、

与えられた入力に基づくモデルは、対応する意思決定は、所望の出力を達成します。このくらいのお金よりも、検索する場合たとえば、投資額、コーラの単価に基づくアルゴリズムは、十分なお金を決定します。

すべてのすべてで、アルゴリズムは、活力の背後の数学的モデルです。いいえモデル、アルゴリズムは、単に数式ではありません。異なるアルゴリズムの使用に応じて異なるモデル、。

勾配降下/最高のフィットライン

いくつかのデータを、最も正確な予測によると、勾配降下たちを支援(これはアルゴリズムを学ぶ伝統的なマシンであるが、どのように重要な最適化するアルゴリズムが利用できる学習、そしてどのように多くのマシンを知るために勾配を理解しています。とは考えられないが)。

たとえば。あなたは大きなリストを持っていますか、リストの誰もが、あなたは、身長と体重を知っています。このプロファイルは、その後、以下で構成されています。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

数字上の図ではなく奇妙な?これらの詳細については気にしないでください。

今、身長と体重を推測ゲーム、勝者がいる赤い封筒に基づいて住宅街で開催されます。この絵を使用します。初めまして。

あなたは、この行は身長と体重の間の完璧な対応を与え、チャート上に線を描画する場合があります。

例えば、体重60 kgで、実質的にこの完璧なライン1.5メートル人を記載します。ああまあ、これはそれの完璧なラインアウトのルートを見つける方法ですか?A:勾配降下。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

さんはRSS(残差平方和)と呼ばれる概念に言及してみましょう。RSSは、点や線間の差の二乗であり、この値は、どのくらいの点や線の距離を表します。勾配降下は、RSSの最小値を見つけることです。

我々は異なるパラメータを視覚化するには、この行を探したびに、あなたはコスト曲線と呼ばれる何かを得ます。曲線が私たちのRSS最小となる点。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

勾配降下は(matplotlibのを使用して)可視化

信じられないほどのBhavesh Bhattさんからのデータ科学者

勾配降下など「ステップ」と(私たちは下の終わりに参加したいものの方向、である)「学習率」などの他のセグメントが、あります。

要するに、我々は、データポイントと勾配降下で最高のフィットライン間の最小空間見つける;あなたは、最高のラインを、私たちは直接基礎を予測します。

直線回帰

線形回帰は、さらに、1つまたは複数の変数(独立変数)、分析方法の強度との関係の間で可変です。

ある兆候の線形回帰、名前が示すように、独立変数と結果変数の間、すなわち関係は線形では、変数間の関係は直線をシティリンクすることができますと言っています。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

我々は上記の操作を行うように見えます!これが私たちの中に前の回帰直線のためのベストプラクティスである「回帰。」ベストフィットライン、当社のポイントとの間で最良の直線的な関係を示しています。ターンでは、これは、私たちは予測を行うことができます。

別の焦点は、線形回帰にあり、変数の結果または「他の変数に応じて変化する」可変(HAの周りビット)が常に連続しています。しかし、これはどういう意味?

私たちは影響力の降雨、NYがあることの要因を測定するとします:結果変数が降雨で、私たちの関係のほとんど、および独立変数の降水の影響は海面より上にあるものです。

結果変数が連続していない場合、それは特定の高度に表示されることがあり、何の成果変数は、我々は予測がつながる作ることはできません。

反之,任意给定的海拔,我们都可以做出预测。这就是线性回归最酷的地方!

岭回归与LASSO回归

现在我们知道什么是线性回归,接下来还有更酷的,比如岭回归。在开始理解岭回归之前,我们先来了解正则化。

简单地说,数据科学家使用正则化,确保模型只关注能够对结果变量产生显著影响的自变量。

但是那些对结果影响不显著的自变量会被正则忽略吗?当然不会!原因我们后面再展开细讲。

原则上,我们创建这些模型,投喂数据,然后测试我们的模型是否足够好。

如果不管自变量相关也好不相关都投喂进去,最后我们会发现模型在处理训练数据的时候超棒;但是处理我们的测试数据就超烂。

这是因为我们的模型不够灵活,面对新数据的时候就显得有点不知所措了。这个时候我们称之为“Overfit”,即“过拟合”。

接下来我们通过一个过长的例子,来体会一下过拟合。

比方说,你是一个新妈妈,你的宝宝喜欢吃面条。几个月来,你养成了一个在厨房喂食并开窗的习惯,因为你喜欢新鲜空气。

 

接着你的侄子给宝宝一个围裙,这样他吃东西就不会弄得满身都是,然后你又养成了一个新的习惯:喂宝宝吃面条的时候,必须穿上围裙。

 

随后你又收养了一只流浪狗,每次宝宝吃饭的时候狗就蹲在婴儿椅旁边,等着吃宝宝掉下来的面条。

 

作为一个新妈妈,你很自然的会认为,开着的窗户+围裙+婴儿椅下面的狗,是让你的宝宝能够开心吃面条的必备条件。

 

直到有一天你回娘家过周末。当你发现厨房里没有窗户你有点慌;然后你突然想起来走的匆忙围裙也没带;最要命的是狗也交给邻居照看了,天哪!

 

你惊慌到手足无措以至于忘记给宝宝喂食,就直接把他放床上了。看,当你面对一个完全新的场景时你表现的很糟糕。而在家则完全是另外一种画风了。

 

经过重新设计模型,过滤掉所有的噪音(不相关的数据)后你发现,其实宝宝仅仅是喜欢你亲手做的面条。

 

第二天,你就能坦然的在一个没有窗户的厨房里,没给宝宝穿围裙,也没有狗旁边,开开心心的喂宝宝吃面条了。

这就是机器学习的正则化所干的事情:让你的模型只关注有用的数据,忽略干扰项。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

在左边:LASSO回归(你可以看到红色梯级表示的系数在穿过y轴时可以等于零)

在右边:岭回归(你可以看到系数接近,但从不等于零,因为它们从不穿过y轴)

图片来源:Prashant Gupta的“机器学习中的正规化”

在各种正规化的,有一些所谓的惩罚因子(希腊字母拉姆达:λ)。这个惩罚因子的作用是在数学计算中,缩小数据中的噪声。

在岭回归中,有时称为“L2回归”,惩罚因子是变量系数的平方值之和。惩罚因子缩小了自变量的系数,但从来没有完全消除它们。这意味着通过岭回归,您的模型中的噪声将始终被您的模型考虑在内。

另一种正则化是LASSO或“L1”正则化。在LASSO正则化中,只需惩罚高系数特征,而不是惩罚数据中的每个特征。

此外,LASSO能够将系数一直缩小到零。这基本上会从数据集中删除这些特征,因为它们的“权重”现在为零(即它们实际上是乘以零)。

通过LASSO回归,模型有可能消除大部分噪声在数据集中。这在某些情况下非常有用!

逻辑回归

现在我们知道,线性回归=某些变量对另一个变量的影响,并且有2个假设:

  • 结果变量是连续的;
  • 变量和结果变量之间的关系是线性的。

但如果结果变量不是连续的而是分类的呢?这个时候就用到逻辑回归了。

分类变量只是属于单个类别的变量。比如每一周都是周一到周日7个日子,那么这个时候你就不能按照天数去做预测了。

每周的第一天都是星期一,周一发生的事情,就是发生在周一。没毛病。

逻辑回归模型只输出数据点在一个或另一个类别中的概率,而不是常规数值。这也是逻辑回归模型主要用于分类的原因。

在逻辑回归的世界中,结果变量与自变量的对数概率(log-odds)具有线性关系。

  • 比率(odds)

逻辑回归的核心就是odds。举个例子:

一个班里有19个学生,其中女生6个,男生13个。假设女性通过考试的几率是5:1,而男性通过考试的几率是3:10。这意味着,在6名女性中,有5名可能通过测试,而13名男性中有3名可能通过测试。

那么,odds和概率(probability)不一样吗?并不。

概率测量的是事件发生的次数与所有事情发生的总次数的比率,例如,投掷40次投币10次是正面的概率是25%;odds测量事件发生的次数与事件的次数的比率,例如抛掷30次有10次是正面,odds指的是10次正面:30次反面。

这意味着虽然概率总是被限制在0-1的范围内,但是odds可以从0连续增长到正无穷大!

这给我们的逻辑回归模型带来了问题,因为我们知道我们的预期输出是概率(即0-1的数字)。

那么,我们如何从odds到概率?

让我们想一个分类问题,比如你最喜欢的足球队和另一只球队比赛,赢了6场。你可能会说你的球队失利的几率是1:6,或0.17。

而你的团队获胜的几率,因为他们是一支伟大的球队,是6:1或6。如图:

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

图片来源:

https://www.youtube.com/watch?v=ARfXDSkQf1Y

现在,你不希望你的模型预测你的球队将在未来的比赛中取胜,只是因为他们过去获胜的几率远远超过他们过去失败的几率,对吧?

还有更多模型需要考虑的因素(可能是天气,也许是首发球员等)!因此,为了使得odds的大小均匀分布或对称,我们计算出一些称为对数比率(log-odds)的东西。

  • log-odds

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

我们所谓的“正态分布”:经典的钟形曲线!

Log-odds是自然对数odds的简写方式。当你采用某种东西的自然对数时,你基本上可以使它更正常分布。当我们制作更正常分布的东西时,我们基本上把它放在一个非常容易使用的尺度上。

当我们采用log-odds时,我们将odds的范围从0正无穷大转换为负无穷正无穷大。可以在上面的钟形曲线上看到这一点。

即使我们仍然需要输出在0-1之间,我们通过获取log-odds实现的对称性使我们比以前更接近我们想要的输出!

  • Logit函数

“logit函数”只是我们为了得到log-odds而做的数学运算!

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

恐怖的不可描述的数学。呃,我的意思是logit函数。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

logit函数,用图表绘制

正如您在上面所看到的,logit函数通过取其自然对数将我们的odds设置为负无穷大到正无穷大。

  • Sigmoid函数

好的,但我们还没有达到模型给我们概率的程度。现在,我们所有的数字都是负无穷大到正无穷大的数字。名叫:sigmoid函数。

sigmoid函数,以其绘制时呈现的s形状命名,只是log-odds的倒数。通过得到log-odds的倒数,我们将我们的值从负无穷大正无穷大映射到0-1。反过来,让我们得到概率,这正是我们想要的!

与logit函数的图形相反,其中我们的y值范围从负无穷大到正无穷大,我们的sigmoid函数的图形具有0-1的y值。好极了!

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

有了这个,我们现在可以插入任何x值并将其追溯到预测的y值。该y值将是该x值在一个类别或另一个类别中的概率。

  • 最大似然估计

你还记得我们是如何通过最小化RSS(有时被称为“普通最小二乘法”或OLS法)的方法在线性回归中找到最佳拟合线的吗?

在这里,我们使用称为最大似然估计(MLE)的东西来获得最准确的预测。

MLE通过确定最能描述我们数据的概率分布参数,为我们提供最准确的预测。

我们为什么要关心如何确定数据的分布?因为它很酷!(并不是)

它只是使我们的数据更容易使用,并使我们的模型可以推广到许多不同的数据。

勾配降下、線形回帰、ロジスティック回帰:リベラルアーツの学生は、チュートリアルを機械学習を理解することができます

 

一般来说,为了获得我们数据的MLE,我们将数据点放在s曲线上并加上它们的对数似然。

基本上,我们希望找到最大化数据对数似然性的s曲线。我们只是继续计算每个log-odds行的对数似然(类似于我们对每个线性回归中最佳拟合线的RSS所做的那样),直到我们得到最大数量。

好了,到此为止我们知道了什么是梯度下降、线性回归和逻辑回顾,下一讲,由Audrey妹子来讲解决策树、随机森林和SVM。

参考链接:

https://towardsdatascience.com/machine-learning-algorithms-in-laymans-terms-part-1-d0368d769a7b

编辑:黄继彦

校对:林亦霖

—完—

公開された416元の記事 ウォンの賞賛672 ビュー136万+

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/104097612