图解及其学习的王国:
这本图解机器学习是比较简单的一本入门教材,以下是图解机器学习王国的整体框架.
产生王国:联合概率密度p(x,y)称为数据的生成概率,y=argmax P(x,y) (朴素贝叶斯方法,隐马尔科夫模型)
判别王国:y取得特征值时,求后验概率y=argmax P(y/x) (k近邻法,感知机,决策树,逻辑斯禘回归,最大熵模型,支持向量机,提升方法,条件随机场)
已知生成概率p(x,y)可以求出判别概率,但是知道判别式概率不能推出生成概率.所以大多数方法都使用判别式概率
第一部分:
其中第一部分主要包含的内容如下:
(1)几种机器学习的基本概念:包括监督学习,无监督学习,强化学习;
(2)机器学习的主要任务;
(3).机器学习主要使用的三种模型:包括线性模型,核模型,层级模型;
(1)几种机器学习:
1.监督学习:
指在老师的陪伴下学习,老师会在每次学习时告之对错.学生在知识经验的积累下,形成泛化能力,能够对没有学习过的知识给出正确答案.
在监督学习中,输入空间的每一个实例都是一个特征向量,所有特征向量组成的空间称为特征空间,需要将输入空间映射到特征空间,然后由定义在特征空间上的模型把结果映射到输出空间.
2.无监督学习:
指在没有老师监督下学习,
3.强化学习:
学生在学习的过程中,在没有老师提示的前提下,自己对预测的结果进行评估,为了获得正确答案不断进行学习.
4.统计学习:
用数据建立概率统计模型,用建立好的模型对未知数据进行预测和分析.学机器学习需要学的东西:概率论,统计学,信息论,计算理论,最优化理论及计算机科学.这些都要学(wtf)
统计学习方法:
给定独立同分布的训练数据集,训练出的模型属于一个集合(集合里包含所有的由输入空间映射到输出空间的函数),这个集合称为假设空间,假设空间里包含许多映射关系的函数,所以需要评价函数算法以便从假设空间里选取一个最优的模型.所以统计学习方法的三要素为:模型,策略,算法:
实现统计学习方法的步骤:
1.得到一个有限的训练数据集
2.确定所有由输入到输出的映射函数的集合,即寻找到假设空间
3.确定模型选择的准则,即某些约束条件
4.根据上述约束条件准则,设计算法,最优化假设空间内的模型,得到最优模型
5.根据上面得到的最优模型对新数据进行预测或分析
(2)机器学习的主要任务:
a.回归:输入变量与输出变量均为连续的预测问题.输出样本与真实值之间会存在噪声误差,比如学生向老师提问问题,存在老师的教学错误或者学生的理解错误,导致学生学习到的知识和真实的知识之间存在误差,老师的知识与真实函数f相对应,使学生最后能获得和老师一样的能力,即找到f函数是回归问题的目的.
b.分类:输出变量为有限个离散变量的问题.以d维实向量x作为输入样本,以1,2,...c个类别为输出空间,进行监督学习,在nlp领域,输入文本的特征向量,输出是文本的类别,把文本中的每一个词定义为一个特征
评价分类性能的指标一般是分类的准确率,即正确分类的样本数与总样本数之比
对于二分类问题常用的评价指标是精确率与召回率,
TP:将正类预测为正类数
FN:将正类预测为负类数
FP:将负类预测为正类数
TN:将负类数预测为负类数
精确率定义为: P=TP/(TP+FP)
召回率定义为: R=TP/(TP+FP)
F1值:精确率和召回率的调和均值: 2/F1=(1/P)+(1/R) 或者 F1=2TP/(2TP+FP+FN)
c.输入变量与输出变量均为变量序列的预测问题称为标注问题.是一个监督学习,输入是一个观测序列,输出是一个标记序列或状态序列,标注问题的目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测.构建一个条件概率模型P(Y1,Y2..|X1,X2...),对新输入观测序列找到相应的输出标记序列,具体的,对于每一个观测序列xn+1找到是条件概率P(yn+1|xn+1)最大的标记序列yn+1. 因为标记问题是扩展的分类问题,所以评价指标和分类模型的一样,常用的有标注准确率,精确率,召回率.在标注中常用的统计学习方法有:隐马尔可夫模型和条件随机场.
d.异常检测问题:后面会涉及到这部分的知识,事先不知道什么是正常数据,什么是异常数据的无监督异常检测问题中,采用密度估计的方法,把靠近密度中心的数据当做是正常的数据,把偏离密度中心的数据作为异常数据.
e.聚类:无监督分类,属于相同簇的样本之间具有相似的性质,不同簇之间的样本具有不同的性质.
f.降维:高维度数据中提取关键信息,降到低维度进行问题求解.有监督降维,{x,y}已知,会获得较高的泛化能力,无监督降维,转换为较低维度之后,应该保持原始输入样本{x}的数据分布性质,以及数据间的近邻关系不发生变化.