《图解机器学习》笔记

从《图解深度学习》这本书中我们可以了解到监督和非监督 但是深度神经网络是在识别的基础上进行监督或者非监督问题。
而对于语音或者是这些
如果数据训练之后再后面的无监督识别中内存会不会太大
回归
#各种机器学习算法大多着重于如何使特定函数与数据集相近似。
基函数:
多维基函数采用多个一维基函数相乘或者相加的方法
2、核函数
普遍用高斯核函数,通过对周围的近似,来达到减低维数、避免维数灾难。
深度神经网络是层模型,通过比较后,得出 层模型比核模型更加的灵活。
#使用随机梯度算法对高斯核模型进行最小二乘法进行学习。
单纯的最小二乘法对有噪点的学习过程有过拟合的弱点,因此进行有限制条件的最小二乘法。来控制他的特征个数。
这里他是怎么限制参数θ的范围的呢, 他通过正交投影矩阵P和正则化参数λ,在不同情境中选择不同的带宽h和正则化参数λ。
模型选择流程

对模型进行评价:
&交叉验证法:因为在实际的训练中,训练的结果对于训练集的拟合程度通常还是挺好的(初始条件敏感),但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练,而是分出一部分来(这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证。

对于补漏 :鲁棒性
对于有异常值得样本
最小绝对值偏差
Huber损失最小
稀疏学习中的鲁棒学习
第6章是对于评估差异用的

#分类器
以-1与+1的二值
先从最简单的二类来看

#0/1损失用最小二乘法不太懂 第七章
各种损失的比较: 0/1损失 l2损失 代理损失是什么

eg 识别多个字母 第一种 一对多 下图 样本可能太多
在这里插入图片描述
第二种 一对一 可能不准确

向量机分类器——进行模式识别
#基于间隔最大原理 这是什么意思

如果是线性可分的分类器,那么采用硬间隔支持向量机分类器。
如果非线性可分的分类器,那么采用软间隔支持向量机分类器。允许有一定的误差。

SVM算法是一种学习机制,是由Vapnik提出的旨在改善传统神经网络学习方法的理论弱点,最先从最优分类面问题提出了支持向量机网络
算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,这一特殊的性质能保证机器有较好的泛化能力,同时它巧妙地解决了维数灾难问题,使得其算法复杂度与样本维数无关。

Hinge损失在负值的时候损失是线性增长的,
拥有上界的损失函数——Ramp损失 功能:对异常值得鲁棒性增强

集成分类
弱分类器
在这里插入图片描述
多个弱学习器通过平均值可以变成一个强学习器。分类误差率em越小的弱分类器,其权值αm越大。所以分类误差率越小的弱分类器在最终分类器中的作用越大。
可以达到这样子的效果:
在这里插入图片描述

概率分类法 :概率分类对于多个种类的识别有更好的效果,这对比上面的 ,上面可以用在多个种类中吗或者用的是多种类中的一对一吗
Logistic 回归模型的学习,这是用和后验概率和最大似然法去判断。
当训练样本比较多的时候采用最小二乘概率分类法;当训练样本比较少的时候采用logistic回归的方法。

文字识别 语言文字处理

序列数据的分类

猜你喜欢

转载自blog.csdn.net/Carol_learning/article/details/98871778
今日推荐