Machine Learning 笔记一

1.什么是Machine Learning?

定义:

假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中的任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。——Mitchell 1997

通俗的讲就是：在任务不断执行中积累的经验会给计算机带来性能上的提升。
举个例子：
假如我写了个程序,可以识别手写数字，但是在程序一开始的时候基本上不能够正确的识别手写的数字，但是，当你把这个程序进行了多次的训练之后（多次的运行），到最后程序可以很好的识别你写的数字。

2.人类的学习

人非生而知之者，那么人类是怎么从无知到掌握大量的知识的呢?
首先，人类能够接受来自外部的信息，这是一切的前提。
然后我们会不自觉讲我们看到的接收到的东西进行一些特征的提取。

比如，怎么认识月亮是月亮的过程，月亮在不同的时候都会显示出不同的月相，有人在满月的时候告诉你，”这个是月亮”，好，这个时候你就知道这个是月亮了，但是，当过了一段时间，月亮变成下弦月或者新月的时候呢？这时你又不知道这是什么了，这时，人家还告诉你，“这是月亮”，多次之后，你可能就知道，这个悬在夜空，晚上会发光的球体就是月亮了，这个就是特征的提取，人类的学习过程（当然人类的学习力很强）

有了这些特征，我们就会根据这些特征来判断东西。

3.统计学习

统计学习分为监督学习、非监督学习、半监督学习以及强化学习。
监督学习(supervised learning)，任务是学习一个模型，是模型能够对任意给定的输入，对其相应的输出做出一个好的预测，是有标签（label）输入的。
非监督学习（unsupervised learning）, 也称为聚类，依据计算数据之间的相似性进行分类，是没有标签(label)的输入的。
半监督式学习（semi-supervised learning），介于两者之间。
强化学习（Reinforcement Learning），举个例子，比如：Alpha Go，在一开始，只告诉计算机，围棋的基本规则（如何下子与输赢规则等），然后让其不断训练。（附：Alpha Go论文）

4.一个小小的例子

如果有人难以理解模型是什么的话，可以把模型认为是一个比较复杂的定义函数，输入值或者不输入值都会给你返回一个结果；也可以看成一个映射，从左边的定义域映射到右边的值域。
在此，为大家举一个例子，可以更加深刻的理解一些。
这里写图片描述

我们来通过上面的训练集来预测下面的房价，就是说把问号去掉，换成具体的数值。
首先我们假设，这是一个非常非常简单的线性问题，符合条件

y = f (x) = θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ

$y = f(x) = θ_0x_0 + θ_1x_1 + θ_2x_2 + θ_3x_3 + θ$
其中

x0、x1、x2、x3 $x_0、x_1、x_2、x_3$ 都是变量，分别代表房屋的类型、房间数、屋子的面积、是否有公共交通,

θ0、θ1、θ2、θ3 $θ_0、θ_1、θ_2、θ_3$ 分别代表着每个向量的权重，而

y $y$ 和

f(x) $f(x)$ 就是最终计算出来的结果，也即房屋价格，而

θ $θ$ 都是干嘛的呢？它是公式的一个截距，有的时候什么都没有做它本身的存在就代表了一定的价值，这个价值就是

θ $θ$ ,当然

θ $θ$ 也可以为0。
然后我们通过上面的计算，算出了

θ0、θ1、θ2、θ3、θ $θ_0、θ_1、θ_2、θ_3、θ$ ，然后我就利用已知的数据（房子类型、房间数等）来预测房价。

5.ML的一般流程

通过上面的一个小小的例子，我们可以总结出一些小小的机器学习的流程规律。

6.各种算法的简单介绍

这里本来想放各种算法的简单介绍，但是我怕一写起来没完没了，反正也会用到，用到的时候再进行详细的介绍吧。

7.数理问题的一些学习

①自然常数 $e$ 的简单推导

首先抛出一条公式

S = 1 0 ! + 1 1 ! + 1 2 ! + 1 3 ! + 1 4 ! + \dots \dots + 1 n ! + \dots

$S= \frac{1}{0!} + \frac{1}{1!} + \frac{1}{2!} + \frac{1}{3!} + \frac{1}{4!} + \cdots\cdots + \frac{1}{n!} + \cdots$
或者
这里写图片描述

我们这么想，我们画出

log1.5(x)、log2(x)、log3(x) $log_1.5(x)、log_2(x)、log_3(x)$ 的图像，然后在

(1.0,0) $(1.0,0)$ 处做切线，那么是否可以找得到对数函数使其切线斜率为1？
解：（上图问题）
我们令

f(x)=loga(x) $f(x) = log_a(x)$
则：

f ( x + Δ x ) - f ( x ) Δ x = l o g a ( x + Δ x ) - l o g a x Δ x = l o g a ( x + Δ x x ) Δ x = l o g a (x + Δ x x) 1 Δ x ∵ x = 1 - \to - - - - l o g a (1 + Δ x) 1 Δ x = = 1 ⟹ lim Δ x \to 0 (1 + Δ x) 1 Δ x = a

$\frac{f(x + \Delta x) - f(x)}{\Delta x} = \frac{log_a(x + \Delta x ) - log_ax}{\Delta x} = \frac{log_a(\frac{x + \Delta x}{ x })}{\Delta x} = log_a\left(\frac{x + \Delta x }{ x }\right)^\frac{1}{\Delta x}\underrightarrow{\because x = 1}\qquad log_a(1 + \Delta x)^\frac{1}{\Delta x} == 1 \implies \lim_{\Delta x \to 0}(1 + \Delta x)^\frac{1}{\Delta x} = a$
问：

limn→∞(1+1n)n=? $\lim_{ n \to \infty} \left(1 + \frac{1}{n}\right)^n = ?$
对此我们构造{

xn ${x_n}$ }并使用牛顿-莱布尼兹展开式子。

xn=(1+1n)n $x_n = \left(1 + \frac{1}{n}\right)^n$

=1+C1n1n+C2n1n2+C3n1n3+⋯⋯+Cnn1nn $=1+C^1_n \frac{1}{n} + C^2_n \frac{1}{n^2} + C^3_n \frac{1}{n^3} + \cdots\cdots + C^n_n \frac{1}{n^n}$

=1+n∗1n+n(n−1)2!∗1n2+n(n−1)(n−2)3!∗1n3+⋯+n(n−1)(n−2)⋯1n!∗1nn $=1 + n * \frac{1}{n} + \frac{n(n-1)}{2!} * \frac{1}{n^2} + \frac{n(n - 1)(n - 2)}{3!} * \frac{1}{n^3} + \cdots + \frac{n(n - 1)(n - 2)\cdots1}{n!} * \frac{1}{n^n}$

=1+1+12!(1−1n)+13!(1−1n)(1−2n)+⋯+1n!(1−1n)(1−2n)⋯(1−n−1n) $=1 + 1 + \frac{1}{2!}\left(1 - \frac{1}{n}\right) + \frac{1}{3!}(1 - \frac{1}{n})(1 - \frac{2}{n}) + \cdots + \frac{1}{n!} (1-\frac{1}{n})(1-\frac{2}{n})\cdots(1-\frac{n-1}{n})$

<1+1+12!+13!+⋯⋯+1n! $< 1 + 1 + \frac{1}{2!} + \frac{1}{3!} + \cdots\cdots + \frac{1}{n!}$

<1+112+122+123+⋯+12n−1 $< 1 + 1 \frac{1}{2} + \frac{1}{2^2} + \frac{1}{2^3} + \cdots + \frac{1}{2^{n-1}}$

=3−12n−1 $= 3 - \frac{1}{2^{n-1}}$
<3
于此我们可知，此单调函数必有上界，即当

n→∞ $n \to \infty$ 时极限必存在，我们将极限记作

e $e$ .
同时我们再利用夹逼定理：

(1 + 1 n + 1) n < (1 + 1 x) x < (1 + 1 n) n + 1

$\left(1 + \frac{1}{n + 1}\right)^n < \left(1 + \frac{1}{x}\right)^x < \left(1 + \frac{1}{n}\right)^{n+1}$

lim n \to \infty (1 + 1 n + 1) n = lim n \to \infty ( 1 + 1 n + 1 ) n + 1 1 + 1 n + 1 = lim n \to \infty ( 1 + 1 n + 1 ) n + 1 lim n \to \infty ( 1 + 1 n + 1 ) = e 1 + 0

$\lim_{n \to \infty}\left(1 + \frac{1}{n+1}\right)^n = \lim_{n\to \infty}\frac{\left(1 + \frac{1}{n + 1}\right)^{n+1}}{1 + \frac{1}{n + 1}} = \frac{\lim_{n \to \infty }\left(1 + \frac{1}{n+1}\right)^{n+1}}{\lim_{n\to\infty}\left(1 + \frac{1}{n+1}\right)} = \frac{e}{1 + 0}$

=e $=e$

limn→∞(1+1n)n+1=limn→∞((1+1n)n(1+1n)=limn→∞(1+1n)n∗limn→∞(1+1n)=e∗(1+0)=e $\lim_{n \to \infty}\left(1 + \frac{1}{n}\right)^{n+1} = \lim_{n \to \infty}((1 + \frac{1}{n})^n( 1 + \frac{1}{n}) = \lim_{n\to\infty}(1+\frac{1}{n})^n * \lim_{n\to\infty}(1+\frac{1}{n}) = e * (1 + 0) = e$
由夹逼定理可知

f(x)=(1+1x)x $f(x) = (1 + \frac{1}{x})^x$ 的极限存在，且为

e $e$

②二阶导数

是斜率变化快慢的反应，表征是曲线的凸凹性，二阶导大于0时，为凸函数，二阶导小于0时为凹函数。

③ $N\to\infty \implies lnN! \to N(lnN-1)$

$lnN! = \sum_{i=1}^Nlni\approx \int_1^N lnxdx$
$=xlnx|_1^N - \int_1^Nxdlnx$
$=Nlnx - \int_1^N x * \frac{1}{x}dx$
$=NlnN - x|_1^N$
$=NlnN - N + 1$
$\to NlnN - N$
$==N(lnN - 1)$

④Tayolr公式-Maclaurin公式

$\text{Tayolr :}f(x) = f(x_0) + \acute{f}(x_0)(x-x_0) + \frac{f^{(2)}(x-x_0)^2}{2!} + \cdots + \frac{f^{n}(x_0)}{n!}(x-x_0)^n + R_n(x)$
$\text{Maclaurin(即Tayolr在0处的展开):} f(x) = f(0) + \acute{f}(0)x + \frac{f^{(2)}(0)}{2!}x^2 + \cdots + \frac{f^{(n)}(0)}{n!}x^n + o(x^n)$

Taylor展示的直观意义

这里写图片描述

由上图我们标注 $f(a_1) = f(a)$
那么

$f(a_2) = f(a+\Delta x) = f(a) + f(\Delta x)$
$f(a_3) = f(a + 2 \Delta x) = f(a + \Delta x) + \Delta f(a + \Delta x) = f(a) + 2\Delta f(x) +\Delta^2 f(x)$
$f(a4) = f(a + 3\Delta x) = f(a) + 4\Delta f(x) + 6\Delta^2f(x) + 4\Delta^3f(x) + \Delta^4f(x)$

Taylor公式的应用1

数值计算：初等函数值的计算
$sinx = x - \frac{x^3}{3!} + \frac{x^5}{5!} - \frac{x^7}{7!} - \frac{x^9}{9 !} + \cdots+(-1)^{m-1}\frac{x^{2m-1}}{(2m-1)!} + R_{2m}$
$e^x = 1 +x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots + \frac{x^n}{n!} + R_n$
例子：给定正实数x，计算 $e^x = ?$
提供一种可行的思路：求整数k和小数r，使得：

x = k * l n 2 + e, | r | \leq 0.5 * l n 2

$x = k*ln2 + e, |r| \leq 0.5 *ln2$
(提示：任意一个数值可以分成一个整数加小数的情况，比如：2.8 = 3.0-0.2 ， 3.3 = 3.0+0.3，至于取

ln2 $ln2$ 完全是因为它方便,且使得小数部分足够小)

$\text{从而:}e^x$
$= e^{k*ln2 + r}$
$= e^{k*ln2} * e^r$
$=2^k*e^r$
$\approx2^k$

Taylor公式的应用2

考察Gini系数
$将f(x) = -lnx 于 x = 1处一阶展开，忽略高级无穷小，我们可以得到f(x) \approx 1 -x$
$H(x) = - \sum_{i=1}^kp_k lnp_k$
$\approx \sum_{k=1}^K p_k(1-p_k)$

⑤方向导数

如果函数 $z=f(x,y)$ 在点 $P(x,y)$ 是可微分的，那么，函数在该点沿任意方向L的方向导数都存在且有：

\partial f \partial l = \partial f \partial x c o s ϕ + \partial f \partial y s i n ϕ

$\frac{\partial f}{\partial l} = \frac{\partial f}{\partial x} cos\phi+ \frac{\partial f}{\partial y}sin\phi$

其 中 ϕ 为 x 轴 到 方 向 L 的 夹 角 。

$其中\phi为x轴到方向L的夹角。$

梯度

设函数 $Z=f(x,y)$ 在平面区域D内具有一阶连续偏导数，则对于每一个点 $P(x,y)\in D$ ,向量

(\partial f \partial x, \partial f \partial y)

$(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})$
为函数

Z=f(x,y) $Z=f(x,y)$ 在点P的梯度，记作

gradf(x,y) $gradf(x,y)$
梯度的方向（即与方向向量的夹角为

0o $0^o$ ）是函数在该点变化最快的方向，于此后面的SGD等都是依照此原理。

⑥ $\Gamma$ 函数推导

$\Gamma(x) = (x-1)*\Gamma(x-1) \implies \frac{\Gamma(x)}{\Gamma(x-1)} = x -1$
$\Gamma$ 函数是阶乘在实数域上的推广，它的发明人是欧拉

Γ (x) = \int + \infty 0 t x - 1 e - t d t = (x - 1)!

$\Gamma(x) = \int _0^{+\infty} t^{x-1}e^{-t}dt = (x-1)!$
我们来这个思考

∫xndx=1n+1xn+1 $\int x^ndx = \frac{1}{n+1} x ^{n+1}$ 和

∫exdx=ex $\int e^x dx= e^x$
当我们都将其放在一起思考，并且将

ex $e^x$ 变成倒数即

e−x $e^{-x}$ 之时
就为

\int + \infty 0 x n e - x d x

$\int_0^{+\infty} x^n e^{-x}dx$
这样子貌似和我一般的习惯不是很相似，我们将其转化一下，同时将x的指数换减去1（不减1也能算，但是-1之后算出的结果比较好看）
于是就成了

\int + \infty 0 t x - 1 e - t d t

$\int_0^{+\infty} t^{x-1}e^{-t}dt$
我们开始对其进行计算,使用分步积分法

\int + \infty 0 t x - 1 e - t d t

$\int_0^{+\infty} t^{x-1}e^{-t}dt$

= - \int + \infty 0 t x - 1 e - t d t

$=-\int_0^{+\infty} t^{x-1}e^{-t}dt$

= t x - 1 e - t | 0 + \infty + \int + \infty 0 e - t d t x - 1

$=t^{x-1}e^{-t}|_{+\infty}^0 + \int _0^{+\infty} e^{-t}dt^{x-1}$

= t x - 1 e - t | 0 + \infty + (x - 1) \int + \infty 0 t x - 2 e - t d t

$=t^{x-1}e^{-t}|_{+\infty}^0 +(x-1) \int _0^{+\infty} t^{x-2}e^{-t}dt$

= t x - 1 e - t | 0 + \infty + (x - 1) \int + \infty 0 t x - 2 e - t d t

$\require{cancel}\begin{array}{rl} =\cancel{ t^{x-1}e^{-t}|_{+\infty}^0 }+(x-1) \int _0^{+\infty} t^{x-2}e^{-t}dt \end{array}$

= (x - 1) Γ (x - 1)

$=(x-1)\Gamma(x-1)$
同时我们令

x=1 $x = 1$ ，可以计算的

Γ(1)=1 $\Gamma(1) = 1$
那么

Γ(x)=(x−1)Γ(x−1)=(x−1)(x−2)Γ(x−2)=(x−1)(x−2)(x−3)⋯⋯Γ(1)=(x−1)! $\Gamma(x) = (x-1)\Gamma(x-1)=(x-1)(x-2)\Gamma(x-2)=(x-1)(x-2)(x-3)\cdots\cdots\Gamma(1)=(x-1)!$

⑦ $f(x_1,x_2) = log(e^{x_1} + e^{x_2}) \approx max(x_1,x_2)$

推广 $f (x 1, x 2, x 3, \dots, x n) = l o g (e x 1 + e x 2 + e x 3 + \dots + e x n) \approx m a x (x 1, x 2, x 3, \dots, x n)$ $f(x_1,x_2,x_3,\cdots,x_n) = log(e^{x_1} + e^{x_2}+e^{x_3} + \cdots + e^{x_n}) \approx max(x_1,x_2,x_3,\cdots,x_n)$

在这里只进行简单的计算，以后再进行推导，在此可以简单的画上两张图让大家看一看。
这里写图片描述

这个是代码

import numpy as np
from matplotlib import pyplot as plt

if name == ‘main‘:
fig = plt.figure()
ax = fig.add_subplot(111)
u = np.linspace(0,4,1000)
x , y = np.meshgrid(u , u)
z = np.log(np.exp(x) + np.exp(y))
ax.contourf(x,y,z,20)

8.概率论

下次再对这个进行一些简单的介绍，其实很多东西，大家都已经了解非常的多了，我的介绍仅仅只是为大家锦上添花罢了。

9.小结

机器学习这一门学科，真的是需要的非常好的数理功底，在学习这个的时候其实更多时候是在学习各种数学的原理，而且还不是简简单单的知道就可以的，最好是能够对各种数学原理信手拈来，抓起笔就能写推导的程度，感觉在学习的过程中对各种数学原理理解的更加深刻了。

再之，在一开始写这篇博客的时候，万万没有想到中间的数学式子写的我要吐了，在右边每一条好看的的数学式子后面都是一堆代码在支撑着，不过那时已经写了一半了（其实远不到），放弃就不太甘心，硬是这么支撑着写了下来（当然，中间有些东西也没有详细讲），中间一些东西怕readers难以理解还特意去思考了如何表述比较明了，一些定义为了更精准到处去翻，其中虽然苦，但是还是让我乐在其中的，写这一篇即是为了和大家分享学习心得，也算是给自己一次复习的机会，接下里还是要继续努力学习！