ロジスティック回帰と勾配降下

また、ロジスティック回帰として知られているロジスティック回帰分析は、一般にデータマイニング、疾患、経済予測及び他の分野の自動診断に使用される一般化線形回帰モデルです。

ロジスティック回帰は、一般化線形回帰(モデルLINEAR一般化)、および重回帰分析であるため、多くの共通点を持っています。

次のように式は次のとおりです。

                                      

我々はまた、同じことがxにあることを知って、それ自体誘導体を表すことができます :(使用する必要があるのロジスティック回帰派生で勾配降下を)

                                                     

画像は以下のとおりです。

            

      発明者らは、上記観察画像、ロジスティック回帰範囲(0、1)、入力が0のとき、出力が0.5であり、入力が近いと近いその出力に、より小さな0以上であり、そして場合0;逆に、入力が0より大きい場合、その出力を増加させることが1に近いとなります。

通常、我々は値を予測するために線形回帰を使用しますが、単語の「戻る」とロジスティック回帰が、多くの場合、バイナリ分類問題を解決するために使用されます。

出力が0.5よりも大きい場合、我々は、サンプルは、グループAに属していると仮定することができ、0.5未満、サンプルがクラスに属すると考えられます。

しかしながら、サンプルデータの複数の通常の機能を持っているので、我々は、ロジスティック回帰式に直接ことができない、したがって、以前に特定の値を生成するためにサンプル値を複数ことを特徴とする、線形回帰を説明使用する必要があり、式には、それらの分類ので、次のようにzが表されます。

これは、データのためのロジスティック回帰の詳細な表現を取得することができます:

我々は、データの分類は次の式を使用してすることができないために、我々はデータのロジスティック回帰分析のいずれかの式によることができるが、これはθの値について、ある存在する問題であり、そして唯一の既知の式をθそれを得るために、どのようにθ?

次の式を考えてみましょう。

二、ロジスティック回帰式の導出

上記では、我々が得る、私たちはここでは詳細に分析され、θ入手方法については、θ取得する必要があります。

通常、機械学習で、私たちはしばしば訓練と呼ばれるプロセスを持っている、いわゆるトレーニング、すなわち既知の分類によるデータ(またはラベル)、およびモデル(またはスプリッタ)を求め、その後、タグに未知のラベルをモデル化するために、このデータを使用します(又は分類)。

したがって、我々は、試料(即ち、既知の分類データ)、θ得られる推定値の系列を使用します。このプロセスは、確率論におけるパラメータ推定と呼ばれています。

在此,我们将使用极大似然估计的推导过程,求得关于计算θ的公式:

(1) 首先我们令:

(2) 将上述两式整合:

(3) 求其似然函数:

(4) 对其似然函数求对数:

(5) 当似然函数为最大值时,得到的θ即可认为是模型的参数。求似然函数的最大值,我们可以使用一种方法,梯度上升,但我们可以对似然函数稍作处理,使之变为梯度下降,然后使用梯度下降的思想来求解此问题,变换的表达式如下:

(由于乘了一个负的系数,所以梯度上升变梯度下降。)

(6) 因为我们要使用当前的θ值通过更新得到新的θ值,所以我们需要知道θ更新的方向(即当前θ是加上一个数还是减去一个数离最终结果近),所以得到J(θ)后对其求导便可得到更新方向(为什么更新方向这么求?以及得到更新方向后为什么按照下面的式子处理?请看下方的梯度下降公式的演绎推导),求导过程如下:

(7) 得到更新方向后便可使用下面的式子不断迭代更新得到最终结果。

三、梯度下降公式的演绎推导

关于求解函数的最优解(极大值和极小值),在数学中我们一般会对函数求导,然后让导数等于0,获得方程,然后通过解方程直接得到结果。但是在机器学习中,我们的函数常常是多维高阶的,得到导数为0的方程后很难直接求解(有些时候甚至不能求解),所以就需要通过其他方法来获得这个结果,而梯度下降就是其中一种。

对于一个最简单的函数:, 我们该如何求出y最小是x的值呢(不通过解2x = 0的方法)?

(1) 首先对x任取一个值,比如x = -4,可以得到一个y值。

(2) 求得更新方向(如果不求更新方向对x更新,比如x-0.5,或x+0.5,得到图像如下)。

可以发现,我们如果是向负方向更新x,那么我就偏离了最终的结果,此时我们应该向正方向更新,所以我们在对x更新前需要求得x的更新方向(这个更新方向不是固定的,应该根据当前值确定,比如当x=4时,应向负方向更新)求其导函数在这一点的值,y' = 2x,x = -4, y' = -8,那么它的更新方向就是y',对x更新我们只需x:=x-α·y'(α(大于0)为更新步长,在机器学习中,我们叫它学习率)。 PS:之前说了是多维高阶方程,无法求解,而不是不能对其求导,所以可以对其求导,然后将当前x带入。

(3) 不断重复之前的(1),(2)步,直到x收敛。

梯度下降方法:

对于这个式子,如果:

(1) m是样本总数,即每次迭代更新考虑所有的样本,那么就叫做批量梯度下降(BGD),这种方法的特点是很容易求得全局最优解,但是当样本数目很多时,训练过程会很慢。当样本数量很少的时候使用它。

(2)当m = 1,即每次迭代更新只考虑一个样本,公式为,叫做随机梯度下降(SGD),这种方法的特点是训练速度快,但是准确度下降,并不是全局最优。比如对下列函数(当x=9.5时,最终求得是区部最优解):

(3) 所以综上两种方法,当m为所有样本数量的一部分(比如m=10),即我们每次迭代更新考虑一小部分的样本,公式为,叫做小批量梯度下降(MBGD),它克服了上述两种方法的缺点而又兼顾它们的优点,在实际环境中最常被使用。

发布了67 篇原创文章 · 获赞 48 · 访问量 4万+

おすすめ

転載: blog.csdn.net/qq_41282102/article/details/104320253