《图解机器学习》笔记

从《图解深度学习》这本书中我们可以了解到监督和非监督但是深度神经网络是在识别的基础上进行监督或者非监督问题。
而对于语音或者是这些
如果数据训练之后再后面的无监督识别中内存会不会太大
回归
#各种机器学习算法大多着重于如何使特定函数与数据集相近似。
基函数：
多维基函数采用多个一维基函数相乘或者相加的方法
2、核函数
普遍用高斯核函数，通过对周围的近似，来达到减低维数、避免维数灾难。
深度神经网络是层模型，通过比较后，得出层模型比核模型更加的灵活。
#使用随机梯度算法对高斯核模型进行最小二乘法进行学习。
单纯的最小二乘法对有噪点的学习过程有过拟合的弱点，因此进行有限制条件的最小二乘法。来控制他的特征个数。
这里他是怎么限制参数θ的范围的呢，他通过正交投影矩阵P和正则化参数λ,在不同情境中选择不同的带宽h和正则化参数λ。
模型选择流程

对模型进行评价：
&交叉验证法：因为在实际的训练中，训练的结果对于训练集的拟合程度通常还是挺好的（初始条件敏感），但是对于训练集之外的数据的拟合程度通常就不那么令人满意了。因此我们通常并不会把所有的数据集都拿来训练，而是分出一部分来（这一部分不参加训练）对训练集生成的参数进行测试，相对客观的判断这些参数对训练集之外的数据的符合程度。这种思想就称为交叉验证。

对于补漏：鲁棒性
对于有异常值得样本
最小绝对值偏差
Huber损失最小
稀疏学习中的鲁棒学习
第6章是对于评估差异用的

#分类器
以-1与+1的二值
先从最简单的二类来看

#0/1损失用最小二乘法不太懂第七章
各种损失的比较： 0/1损失 l2损失代理损失是什么

eg 识别多个字母第一种一对多下图样本可能太多
在这里插入图片描述
第二种一对一可能不准确

向量机分类器——进行模式识别
#基于间隔最大原理这是什么意思

如果是线性可分的分类器，那么采用硬间隔支持向量机分类器。
如果非线性可分的分类器，那么采用软间隔支持向量机分类器。允许有一定的误差。

SVM算法是一种学习机制，是由Vapnik提出的旨在改善传统神经网络学习方法的理论弱点，最先从最优分类面问题提出了支持向量机网络。
算法将实际问题通过非线性变换转换到高维的特征空间，在高维空间中构造线性判别函数来实现原空间中的非线性判别函数，这一特殊的性质能保证机器有较好的泛化能力，同时它巧妙地解决了维数灾难问题，使得其算法复杂度与样本维数无关。

Hinge损失在负值的时候损失是线性增长的，
拥有上界的损失函数——Ramp损失功能：对异常值得鲁棒性增强

集成分类
弱分类器
在这里插入图片描述
多个弱学习器通过平均值可以变成一个强学习器。分类误差率em越小的弱分类器，其权值αm越大。所以分类误差率越小的弱分类器在最终分类器中的作用越大。
可以达到这样子的效果：

概率分类法：概率分类对于多个种类的识别有更好的效果，这对比上面的，上面可以用在多个种类中吗或者用的是多种类中的一对一吗
Logistic 回归模型的学习，这是用和后验概率和最大似然法去判断。
当训练样本比较多的时候采用最小二乘概率分类法；当训练样本比较少的时候采用logistic回归的方法。

文字识别语言文字处理

序列数据的分类

《图解机器学习》笔记

文字识别 语言文字处理

猜你喜欢

文字识别语言文字处理