机器学习从入门到创业手记-1.4 难以理解的数学知识

第二天的李里准时站在了培训用的会议室当中。

 

李里:昨天我们进度不是很快,培训的内容也比较简单,今天开始我们要进入比较枯燥的数学理论的培训,你们要做好准备,可能最多进入机器学习领域而后又放弃的人都是由于被铺天盖地的数学公式给吓住了,一会儿看看拉普拉斯定理,一会儿又看看熵的定义,梯度上升与梯度下降都用在什么时候,学习数学知识确实需要时间和下苦功夫,很多开发框架和开源库都是辅助类的,你可以在不明白原理的情境下开发所需,但你要做到更准确的解决问题,更大提升建模的精准性,更高的算法效率那么数学是你绕不过去的,但也不需要把高数,离散,工程数学等教材拿来重头读一遍,这里列出来一些必备的知识点,这也是初入机器学习领域都研究了多遍的,给我的感受是第一遍你不见得能看懂,第二遍你可以配合着搜索引擎理解一些固定概念,第三遍你知道一些机器学习算法的推导原理了,所以别放弃多读几遍。

 

       我打开了今天发的培训内容

 

 

 

爱视达智能科技基础概念培训表格二

 

 

线性代数

 

在机器学习领域,线性代数无处不在。主成分分析(PCA)、奇异值分解(SVD)、矩阵的特征分解、LU 分解、QR 分解、对称矩阵、正交化和正交归一化、矩阵运算、投影、特征值和特征向量、向量空间和范数(Norms),这些都是理解机器学习中所使用的优化方法所需要的。

 

 

概率和统计

 

机器学习和统计学并不是迥然不同的领域。事实上,最近就有人将机器学习定义为「在机器上做统计」。机器学习需要的一些概率和统计理论分别是:组合、概率规则和公理、贝叶斯定理、随机变量、方差和期望、条件和联合分布、标准分布(伯努利、二项式、多项式、均匀和高斯)、 矩母函数 (Moment Generating Functions)、最大似然估计(MLE)、先验和后验、最大后验估计(MAP)和抽样方法。

 

 

多元微积分

 

一些必要的主题包括微分和积分、偏微分、向量值函数、方向梯度、海森、雅可比、拉普拉斯、拉格朗日分布。

 

 

算法和复杂优化

 

这对理解机器学习算法的计算效率和可扩展性以及利用数据集中稀疏性很重要。需要的知识有数据结构(二叉树、散列、堆、栈等)、动态规划、随机和子线性算法、图论、梯度/随机下降和原始对偶方法。

 

 

其他

 

包括以上四个主要领域没有涵盖的数学主题。它们是实数和复数分析(集合和序列、拓扑学、度量空间、单值连续函数、极限)、信息论(熵和信息增益)、函数空间和流形学习。

 

 

学习建议

 

建议如果能多去听听网络上的在线课堂要比自己学习要省事的多,而且当掌握一个知识点后最好去马上找到这个知识点的应用范围,去把学到的知识用实际问题去验证一下,看看到底是否真的掌握了,是否真的达到了可以运用的级别。

 

 

数学知识点汇总[1]

 

矩阵与方程组

  • 还记得n*n方程组是怎么求解的吗?这个术语叫“回代法”,即转成三角形方程组再挨个代入求解
  • 一直不理解“代数”这个“代”是什么意思,现在终于理解了,代,英文是substitution,含义是代替,从初中到现在一直以为“代数”就是“代入”
  • 系数矩阵,英文名叫coefficient matrix,怪不得读开源代码里面经常遇到变量名叫做coe,原来是从这来的
  • “导数”、“可导”还记得吗?不知道“导”是什么含义的有木有?英文derivative(含义是派生的、衍生的),看起来不是疏导的意思,而是音译过来的
  • 矩阵就是矩形的数字阵列,这再简单不过了
  • n*n的矩阵叫方阵,地球人都知道了
  • 行阶梯型矩阵,这回有点难度了,它就是这样的:非零一行比一行少,第一个元素是1,数字靠右
  • 高斯消元法:把增广矩阵化为行阶梯型矩阵
  • 超定方程组:方程个数比未知量个数多
  • 行最简形:行阶梯形,每行第一个非零元是该列唯一的非零元
  • 高斯-若尔当消元法:将矩阵化为最简形的方法
  • 齐次方程组(homogeneous):右端项全为零。齐次方程组总是有解的
  • 平凡解,就是零解(0,0,0,.....0),能不能别这么平凡的叫....
  • 非平凡解:零解以外的解
  • x上面加水平箭头表示水平数组(行向量),不加则表示列向量,不一样的书里记法不太一样,姑且这么记吧
  • 对称矩阵的性质:转置等于他自己
  • 若A=(1),则An=(2n-1)
  • 如果AB=BA=I,则称A是可逆的,或A是非奇异的(nonsingular),B叫做A的逆元,记作A-1
  • 矩阵没有乘法逆元,那么叫做奇异的(singlular)
  • (AB)-1=B-1A-1
  • (AB)T=BTAT
  • 图的邻接矩阵(相连为1否则为0)是对称的
  • 初等矩阵:乘到方程两端得到行阶梯形,初等矩阵是非奇异的,即有逆
  • 如果B=多个初等矩阵连乘A,那么说A与B是行等价的
  • 如果A与I行等价,那么Ax=0只有平凡解0,而且A有逆矩阵A-1,也就是A是非奇异的,此时Ax=b有唯一解
  • 求逆的方法:对增广矩阵A|I做行列变换,把A变成I,则I变成了A-1
  • 对角矩阵:对角线以外的元素都是0
  • 如果A可以仅利用行运算化简为严格上三角形,则A有一LU分解,L是单位下三角矩阵,矩阵值就是变换中用的系数,这叫LU分解
  • 矩阵分块后满足矩阵乘法规则
  • 内积也叫标量积:行向量和列向量乘积,得出一个数
  • 外积:列向量和行向量乘积,得出一个矩阵
  • 外积展开:两个矩阵分别用向量方式表示,其乘积可以表示为外积展开

 行列式

  • 行列式:两条竖线间包括的阵列
  • 每个方形矩阵可以和他的行列式对应,行列式数值说明方阵是否是奇异的
  • 行列式算法:展开某一行,每个数乘以他的余子式并加和
  • 如果行列式非0,则方形矩阵为非奇异
  • det(A)可表示为A的任何行或列的余子式展开
  • 三角形矩阵的行列式等于对角元素乘积
  • 交换矩阵两行,行列式变成原来的负数,即det(EA)=-det(A)
  • 矩阵某行乘以a,行列式变成原来的a倍,即det(EA)=adet(A)
  • 矩阵某行乘以a加到另一行,行列式不变
  • 如果某行为另一行的倍数,则矩阵行列式为零
  • det(AB)=det(A)det(B)
  • adj A:矩阵的伴随(adjoint),将元素用余子式替换并转置
  • 求逆方法:A-1=(1/det(A)) adj A,推导:A(adj A)=det(A)I所以A(((1/det(A)) adj A) = I
  • 克拉黙法则:Ax=b的唯一解是xi=det(Ai)/det(A),这是线性方程组用行列式求解的便利方法
  • 信息加密方法:找到行列式为正负1的整数矩阵A,A-1=+-adj A易求,乘A加密,乘A-1解密,A的构造方法:单位矩阵做初等变换
  • 向量积也是一个向量
  • 微积分中x看做行向量,线性代数中x看做列向量
  • 假设x和y是行向量,则x*y=(x2y3-y2x3)i-(x1y3-y1x3)j+(x1y2-y1x2)k,其中i,j,k是单位矩阵的行向量
  • 向量积可用于定义副法线方向
  • xT(x*y)=yT(x*y)=0,说明向量积与向量夹角为0

 向量空间

  • 向量空间:这个集合中满足加法和标量乘法运算,标量通常指实数
  • 子空间:向量空间S的子集本身也是个向量空间,这个子集叫做子空间
  • 除了{0}和向量空间本身外,其他子空间叫做真子空间,类似于真子集的概念,{0}叫做零子空间
  • Ax=0的解空间N(A)称为A的零空间,也就是说Ax=0线性方程组的解空间构成一个向量空间
  • 向量空间V中多个向量的线性组合构成的集合成为这些向量的张成(span),记作span(v1,v2,...,vn)
  • span(e1,e2)为R3的一个子空间,从几何上表示为所有x1x2平面内3维空间的向量
  • span(e1,e2,e3)=R3
  • 如果span(v1,v2,v3)=R3,那么说向量v1,v2,v3张成R3,{v1,v2,v3}是V的一个张集
  • 最小张集是说里面没有多余的向量
  • 最小张集的判断方法是:这些向量线性组合=0只有0解,这种情况也就是这些向量是线性无关的,如果有非零解那么就说是线性相关的
  • 在几何上看二位向量线性相关等价于平行,三维向量线性相关等价于在同一个平面内
  • 向量构成矩阵的行列式det(A)=0,则线性相关,否则线性无关
  • 线性无关向量唯一地线性组合来表示任意向量
  • 最小张集构成向量空间的基,{e1,e2...en}叫做标准基,基向量数目就是向量空间的维数
  • 转移矩阵:把坐标从一组基到另一组基的变换矩阵
  • 由A的行向量张成的R1*n子空间成为A的行空间,由A的列向量张成的Rm子空间成为A的列空间
  • A的行空间的维数成为A的秩(rank),求A的秩方法:把A化为行阶梯形,非零行个数就是秩
  • 矩阵的零空间的维数成为矩阵的零度,一般秩和零度之和等于矩阵的列数
  • m*n矩阵行空间维数等于列空间的维数

 线性变换

  • 线性变换:L(av1+bv2)=aL(v1)+bL(v2)
  • 线性算子:一个向量空间到其自身的线性变换
  • 典型线性算子距离:ax(伸长或压缩a倍),x1e1(到x1轴的投影),(x1,-x2)T(关于x1轴作对称),(-x2,x1)T逆时针旋转90度
  • 判断是不是线性变换,就看看这种变换能不能转化成一个m*n矩阵
  • 线性变换L的核记为ker(L),表示线性变换后的向量空间中的0向量
  • 子空间S的象记为L(S),表示子空间S上向量做L变换的值
  • 整个向量空间的象L(V)成为L的值域
  • ker(L)为V的一个子空间,L(S)为W的一个子空间,其中L是V到W的线性变换,S是V的子空间
  • 从以E为有序基的向量空间V到以F为有序基的向量空间W的线性变换的矩阵A叫做表示矩阵
  • B为L相应于[u1,u2]的表示矩阵,A为L相应于[e1,e2]的表示矩阵,U为从[u1,u2]到[e1,e2]的转移矩阵,则B=U-1AU
  • 如果B=S-1AS,则称B相似于A
  • 如果A和B为同一线性算子L的表示矩阵,则A和B是相似的

正交性

  • 两个向量的标量积为零,则称他们正交(orthogonal)
  • R2或R3中的向量x和y之间的距离是:||x-y||
  • xTy=||x|| ||y|| cos θ,即cos θ=xTy / (||x|| ||y||)
  • 设方向向量u=(1/||x||)x,v=(1/||y||)y,则cos θ=uTv,即夹角余弦等于单位向量的标量积
  • 柯西-施瓦茨不等式:|xTy| <= ||x||  ||y||,当且仅当有0向量或成倍数关系时等号成立
  • 标量投影:向量投影的长度,α=xTy/||y||
  • 向量投影:p=(xTy/||y||)y=(xTy/yTy)y
  • 对R3:||x*y|| = ||x|| ||y|| sinθ
  • 当x和y正交时, ||x+y||2 = ||x||2 + ||y||2,叫毕达哥拉斯定律
  • c2=a2+b2叫毕达哥拉斯定理,其实就是勾股弦定理
  • 余弦应用于判断相似程度
  • U为向量组成的矩阵,C=UTU对应每一行向量的标量积值,这个矩阵表示相关程度,即相关矩阵(correlation matrix),值为正就是正相关,值为负就是负相关,值为0就是不相关
  • 协方差:x1和x2为两个集合相对平均值的偏差向量,协方差cov(X1,X2)=(x1Tx2)/(n-1)
  • 协方差矩阵S=1/(n-1) XTX,矩阵的对角线元素为三个成绩集合的方差,非对角线元素为协方差
  • 正交子空间:向量空间的两个子空间各取出一个向量都正交,则子空间正交。比如z轴子空间和xy平面子空间是正交的
  • 子空间Y的正交补:是这样一个集合,集合中每个向量都和Y正交
  • 正交补一定也是一个子空间
  • A的列空间R(A)就是A的值域,即Rn中的x向量,列空间中的b=Ax
  • R(AT)的正交空间是零空间N(A),也就是说A的列空间和A的零空间正交
  • S为Rn的一个子空间,则S的维数+S正交空间的维数=n
  • S为Rn的一个子空间,则S的正交空间的正交空间是他本身
  • 最小二乘(least squares)用来拟合平面上的点集
  • 最小二乘解为p=Ax最接近b的向量,向量p为b在R(A)上的投影
  • 最小二乘解x的残差r(x)一定属于R(A)的正交空间
  • 残差:r(x) = b - Ax
  • ATAx = ATb叫做正规方程组,它有唯一解x = (ATA)-1ATb,这就是最小二乘解,投影向量p=A(ATA)-1ATb为R(A)中的元素
  • 插值多项式:不超过n次的多项式通过平面上n+1个点
  • 一个定义了内积的向量空间成为内积空间
  • 标量内积是Rn中的标准内积,加权求和也是一种内积
  • 内积表示为<x,y>,内积需满足:<x,x> >= 0; <x,y>=<y,x>; <ax+by,z>=a<x,z>+b<y,z>
  • a=<u,v>/||v||为u到v的标量投影
  • p=(<u,v>/<v,v>) v为u到v的向量投影
  • 柯西-施瓦茨不等式:|<u,v>| <= ||u|| ||v||
  • 范数(norm):定义与向量相关联的实数||v||,满足||v||>=0; ||av||=|a| ||v||; ||v+w|| <= ||v|| + ||w||
  • ||v|| = (<v,v>)^-1为一个范数
  • ||x||=sigma|xi|为一个范数
  • ||x||=max|xi|为一个范数
  • 一般地,范数给出了一种方法来度量两个向量的距离
  • v1,v2,...,vn如果相互之间<vi,vj>=0,则{v1,v2,...,vn}成为向量的正交集
  • 正交集中的向量都是线性无关的
  • 规范正交的向量集合是单位向量的正交集,规范正交集中<vi,vj>=1,里面的向量叫做规范正交基
  • 正交矩阵:列向量构成规范正交基
  • 矩阵Q是正交矩阵重要条件是QTQ=I,即Q-1=QT
  • 乘以一个正交矩阵,内积保持不变,即<x,y>=<Qx,Qy>
  • 乘以一个正交矩阵,仍保持向量长度,即||Qx||=||x||
  • 置换矩阵:将单位矩阵的各列重新排列
  • 如果A的列向量构成规范正交集,则最小二乘问题解为x=ATb
  • 非零子空间S中向量b到S的投影p=UUTb,其中U为S的一组规范正交基,其中UUT为到S上的投影矩阵
  • 使用不超过n次的多项式对连续函数进行逼近,可以用最小二乘逼近。
  • 某取值范围内线性函数的子空间,内积形式是取值范围内对两个函数乘积做积分
  • 通过将FN乘以向量z来计算离散傅里叶系数d的方法称为DFT算法(离散傅里叶变换)
  • FFT(快速傅里叶变换),利用矩阵分块,比离散傅里叶变换快8w多倍
  • 格拉姆-施密特正交化过程:u1=(1/||x1||)x1, u2=(1/||x2-p1||) (x2-p1), .....直接求出一组规范正交基
  • 格拉姆-施密特QR分解:m*n矩阵A如果秩为n,则A可以分解为QR,Q为列向量正交的矩阵,R为上三角矩阵,而且对角元素都为正,具体算法:
    • r11=||a1||,其中r11是对角矩阵第一列第一个元素,a1是A的列向量,
    • rkk=||ak-p(k-1)||, rik=qiTak, a1=r11q1
  • Ax=b的最小二乘解为x=R-1QTb,其中QR为因式分解矩阵,解x可用回代法求解Rx=QTb得到
  • 使用多项式进行数据拟合以及逼近连续函数可通过选取逼近函数的一组正交基进行简化
  • 多项式序列p0(x),p1(x),...下标就是最高次数,如果<pi(x), pj(x)>=0,则{pn(x)}成为正交多项式序列,如果<pi,pj>=1,则叫规范正交多项式序列
  • 经典正交多项式:勒让德多项式、切比雪夫多项式、雅克比多项式、艾尔米特多项式、拉盖尔多项式
  • 勒让德多项式:在内积<p,q>=-1到1的积分p(x)q(x)dx意义下正交,(n+1)P(n+1)(x)=(2n+1)xPn(x)-nP(n-1)(x)
  • 切比雪夫多项式:在内积<p,q>=-1到1的积分p(x)q(x)(1-x2)-1/2dx意义下正交,T1(x)=xT0(x), T(n+1)(x)=2xTn(x)-T(n-1)(x)
  • 拉格朗日插值公式:P(x)=sigma f(xi) Li(x)
  • 拉格朗日函数Li(x)=(x-xj)连乘积 / (xi-xj)连乘积
  • f(x)w(x)在a到b的积分可以简化为sigma Li(x)w(x)在a到b的积分 f(xi)

 特征值

  • 经过矩阵变换后向量保持不变,稳定后的向量叫做该过程的稳态向量
  • 存在非零的x使得Ax=λx,则称λ为特征值,x为属于λ的特征向量。特征值就是一个缩放因子,表示线性变换这个算子的自然频率
  • 子空间N(A-λI)称为对应特征值λ的特征空间
  • det(A-λI)=0称为矩阵A的特征方程,求解特征方程可以算出λ
  • λ1λ2...λn=det(A),即所有特征值的连乘积等于矩阵A的行列式的值
  • sigma λi = sigma aii,所有特征值的和等于矩阵对角线元素之和
  • A的对角线元素的和称为A的迹(trace),记为tr(A) 
  • 相似矩阵:B=S-1AS
  • 相似矩阵具有相同的特征多项式,和相同的特征值
  • 线性微分方程解法可以用特征值特征向量,形如Y'=AY, Y(0)=Y0的解是ae(λt)x,其中x是向量,这样的问题称为初值问题,如果有多个特征值,则解可以是多个ae(λt)x的线性组合
  • 任意高阶微分方程都可以转化成一阶微分方程,一阶微分方程可以用特征值特征向量求解
  • 矩阵A的不同特征值的特征向量线性无关
  • 如果存在X使得X-1AX=D,D是对角矩阵,则说A是可对角化的,称X将A对角化,X叫做对角化矩阵
  • 如果A有n个线性无关的特征向量,则A可对角化
  • 对角化矩阵X的列向量就是A的特征向量,D的对角元素就是A的特征值,X和D都不是唯一的,乘以个标量,或重新排列,都是一个新的
  • An=XDnX-1,所以按A=XDX-1因式分解后,容易计算幂次
  • 如果A有少于n个线性无关的特征向量,则称A为退化的(defective),退化矩阵不可对角化
  • 特征值和特征向量的几何理解:矩阵A有特征值2,特征空间由e3张成,看成几何重数(geometric multiplicity)是1
  • 矩阵B有特征值2,特征向量有两个x=(2,1,0)和e3,看成几何重数(geometric multiplicity)是2
  • 随机过程:一个试验序列,每一步输出都取决于概率
  • 马尔可夫过程:可能的输出集合或状态是有限的;下一步输出仅依赖前一步输出,概率相对于时间是常数
  • 如果1为转移矩阵A的住特征值,则马尔可夫链将收敛到稳态向量
  • 一个转移矩阵为A的马尔可夫过程,若A的某幂次的元素全为正的,则称其为正则的(regular)
  • PageRank算法可以看成浏览网页是马尔可夫过程,求稳态向量就得到每个网页的pagerank值
  • A的奇异值(singlular value)分解:把A分解为一个乘积UΣVT,其中U、V都是正交矩阵,Σ矩阵的对角线下所有元素为0,对角线元素逐个减小,对角线上的值叫奇异值
  • A的秩等于非零奇异值的个数
  • A的奇异值等于特征向量的开方
  • 若A=UΣVT,那么上面ATuj=σjvj,下面ATuj=0,其中vj叫做A的右奇异向量,uj叫做左奇异向量
  • 压缩形式的奇异值分解:U1=(u1,u2,...,ur), V1=(v1,v2,...,vr),A=U1Σ1V1T
  • 奇异值分解解题过程:先算ATA的特征值,从而算出奇异值,同时算出特征向量,由特征向量得出正交矩阵V,求N(AT)的一组基并化成规范正交基,组成U,最终得出A=UΣVT
  • 数值秩是在有限位精度计算中的秩,不是准确的秩,一般假设一个很小的epsilon值,如果奇异值小于它则认为是0,这样来计算数值秩
  • 用来存储图像的矩阵做奇异值分解后去掉较小的奇异值得到更小秩的矩阵,实现压缩存储
  • 信息检索中去掉小奇异值得到的近似矩阵可以大大提高检索效率,减小误差
  • 二次型:每一个二次方程关联的向量函数f(x)=xTAx,即二次方程中ax2+2bxy+cy2部分
  • ax2+2bxy+cy2+dx+ey+f=0图形是一个圆锥曲线,如果没解则称为虚圆锥曲线,如果仅有一个点、直线、两条直线,则称为退化的圆锥曲线,非退化的圆锥曲线为圆、椭圆、抛物线、双曲线
  • 一个关于x、y的二次方程可以写为xTAx+Bx+f=0,其中A为2*2对称,B为1*2矩阵,如果A是非奇异的,利用旋转和平移坐标轴,则可化简为λ1(x')2+λ2(y')2+f'=0,其中λ1和λ2为A的特征值。如果A是奇异的,且只有一个特征值为零,则化简为λ1(x')2+e'y'+f'=0或λ2(x')2+d'x'+f'=0
  • 二次型f(x)=xTAx对于所有x都是一个符号,则称为定的(definite),若符号为正,则叫正定的(positive definite),相对应叫负定的(negative definite),如果符号有不同则叫不定的(indefinite),如果可能=0,则叫半正定的(positive semidefinite),和半负定的(negative semidefinite)
  • 如果二次型正定则称A为正定的
  • 一阶偏导存在且为0的点称为驻点,驻点是极小值点还是极大值点还是鞍点取决于A是正定负定还是不定
  • 一个对称矩阵是正定的,当且仅当其所有特征值均为正的
  • r阶前主子矩阵:将n-r行和列删去得到的矩阵
  • 如果A是一个对称正定矩阵,则A可分解为LDLT,其中L为下三角的,对角线上元素为1,D为对角矩阵,其对角元素均为正的
  • 如果A是一个对称正定矩阵,则A可分解为LLT,其中L为下三角的,其对角线元素均为正
  • 对称矩阵如下结论等价:A是正定的;前主子矩阵均为正定的;A可仅使用行运算化为上三角的,且主元全为正;A有一个楚列斯基分解LLT(其中L为下三角矩阵,其对角元素为正的);A可以分解为一个乘积BTB,其中B为某非奇异矩阵
  • 非负矩阵:所有元素均大于等于0
  • 一个非负矩阵A,若可将下标集{1,2,...,n}划分为非空不交集合I1和I2,使得当i属于I1而j属于I2中时,aij=0,则成其为可约的,否则为不可约的

 数值线性代数

  • 舍入误差(round off error):四舍五入后的浮点数x'和原始数x之间的差
  • 绝对误差:x'-x
  • 相对误差:(x'-x)/x,通常用符号δ表示,|δ|可以用一个正常数ε限制,称为机器精度(machine epsilon)
  • 高斯消元法涉及最少的算术运算,因此被认为是最高效的计算方法
  • 求解Ax=b步骤:将A乘以n个初等矩阵得到上三角矩阵U,把初等矩阵求逆相乘得到L,那么A=LU,其中L为下三角矩阵,一旦A化简为三角形式,LU分解就确定了,那么解方程如下:LUx=b,令y=Ux,则Ly=b,所以可以通过求下三角方程求得y,y求得后再求解Ux=y,即可求得x
  • 矩阵的弗罗贝尼乌斯范数记作||·||F,求其所有元素平方和的平方根
  • 若A的奇异值分解A=UΣVT,则||A||2=σ1(最大的奇异值)
  • 矩阵范数可用于估计线性方程组对系数矩阵的微小变化的敏感性
  • 将x'代回原方程组观察b'=Ax'和b的接近成都来检验精度,r=b-b'=b-Ax'叫做残差(residual),||r||/||b||叫做相对残差
  • 奇异值为一个矩阵接近奇异程度的度量,矩阵越接近奇异就越病态
  • 豪斯霍尔德变换(householder transformation)矩阵H可由向量v和标量β求得,因此存储v和β更省空间
  • 主特征值是指最大的特征值
  • 求主特征值的方法:幂法。
  • 求特征值方法:QR算法。将A分解为乘积Q1R1,其中Q1为正交的,R1为上三角的,A2=Q1TAQ1=R1Q1,将A2分解为Q2R2,定义A3=Q2TA2Q2=R2Q2,继续这样,得到相似矩阵序列Ak=QkRk,最终将收敛到类似上三角矩阵,对角上是1*1或2*2的对角块,对角块的特征值就是A的特征值

 

 

       我看着天书般的培训资料不由得露出了苦笑,和我一样只剩下茫然表情的还有高维,我都怀疑,我能否通过试用期了,李里接着讲到:我们做机器学习开发的人来说,学数学主要是去了解各种算法的思路,不是要去做数学研究,比如,汽车跑的路途与油耗是有线性对应关系,但在实际情况中路途的的长短和总油耗不是成比例变化的,其受多方面影响,如我们对一辆车经过多种路测得到油耗对应值如下, 跑10公里需要1L,20公里需要1.8L,30公里需要2.2L,40公里需要3.0L,那么我们是否可以通过计算得到该车的百公里油耗呢?通过线性方程式很难得到这样一个解的,所以需要根据现有的数据去做一个概率计算来推测出百公里油耗,这个用数学公式去解概率值的过程也就是机器学习的过程,我今天给大家讲解的都是机器学习中最经常用到的几个数学知识点。

 

PPT 页10

 

       李里:这里我用实例来解释先验概率,如清明节当天下雨的概率从历史上统计出来时88%,这个就是先验概率,后验概率指今天下雨了,那今天是清明节的概率是多少,最大似然与后验概率有类似之处,假定决定下雨这个结果里面必须有今天是清明节这个属性,最大似然去计算今天是清明节这个属性的对下雨的影响的权重。

PPT 页11

 

       李里:对于初学者,你们如果发现这个集合里面的数可以通过手指头去数出来那么就是离散型的,不可数的就是连续型的。

PPT 页12

 

李里:我们将数据集都做可视化处理后,来理解一下典型离散型数据集分布的特点,可以看到PPT页12中的图表描述了一个时间段内下午2点的到晚上10点,每个时间监测段内某景区的人流密度,这个密度柱状图是通过计算该时间段内景区中游客的个数累加出来的。

PPT 页13

 

李里:很多人对正态这个名词给迷惑了,其实是英文normal这个单词翻译过来的,我们称其为最常见的分布即可,根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是如何分布进行汇总后,结果都总是趋向于平均值,就是正态分布。举例来说,人的身高既有先天因素如基因,也有后天因素如营养,打蓝球。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,最终人的平均身高都是趋向于平均身高并符合正态分布。许多事物都受到多种因素的影响,这导致了正态分布的是最常见的分布形式。

PPT 页14

 

李里:矩估计与最大似然估计都是用数据来反推模型中未知参数的,也就是点估计。什么是点估计呢,我们假设某一随机变量符合已知分布,同时又获得了这一随机变量在多次验证中的取值,现在想知道这个模型中具体的参数是什么,那我们可以通过PPT页14提供的两种方法,利用样本数据来推测模型中的参数,从而得到模型。其中样本矩是样本的数字特征,用以模拟总体数字特征构造,样本矩主要包括样本均值、未修正样本方差、样本(修正)方差、样本k阶原点矩和样本k阶中心距。而最大似然估计的思想十分简单,当参数是多少的时候,最有可能得到符合预期的结果?

PPT 页15

 

李里:协方差,相关系数都是描述两个随机变量之间具有什么样的关系,关系又分为正相关关系和负相关关系,比如对于股票价格购买该股票的人多股票价格上升,购买的人减少股票价格下跌,股票的价格始终和购买股票的人数变化方向一致,我们称股票价格与购买人数是正相关关系。行驶里程和剩余油量则是负相关,行驶里程越长,剩余油量则越少。而相关系数则通过方向上的差异来描述变量间的相似程度。比如同样给三样产品打分,第一个人打了10分,8分,9分,第二人打了4分,2分,3分,第三人打了8分,10分,9分,根据相关系数的计算第一个人和第二个人打分的方向相似性更接近,只是他们心目中的满分标准不一样而已。这样我们可以认为第一个人和第二个人有更相似的产品推荐度。

PPT 页16

 

李里:特征值与特征向量是比较难理解的,你们可以这么理解寻找一个新的坐标系去表示你原来的函数,特征向量就是新的坐标系的坐标轴,特征值就是坐标轴对应的坐标。

 

这时李里看了看表已经晚上快7点了,说:今天讲的比较快和简单,你们都是刚离开校园的,基本的数学知识也应该那么快都忘干净的,如果理解不了的知识请回去拿起课本,下面会给你们三天的时间,把你们对于人工智能的看法和机器学习的认识都写一下,会有评审的。

 

我莫名的惊诧,这就结束基础理论培训了,后三天要自己学习么?还要写总结,我还什么都没有搞清楚呢,创业小公司真是讲究效率啊。但要求就是要求,剩下的三天里就有有份总结出来。


[1] 参考www.shareditor.com与线性代数(原书第9版),史蒂文 J.利昂 (Steven J.Leon)(作者)

猜你喜欢

转载自blog.csdn.net/yoki2009/article/details/88417314