图解及其学习的王国:

这本图解机器学习是比较简单的一本入门教材,以下是图解机器学习王国的整体框架.

产生王国:联合概率密度p(x,y)称为数据的生成概率,y=argmax P(x,y) (朴素贝叶斯方法,隐马尔科夫模型)

判别王国:y取得特征值时,求后验概率y=argmax P(y/x) (k近邻法,感知机,决策树,逻辑斯禘回归,最大熵模型,支持向量机,提升方法,条件随机场)

已知生成概率p(x,y)可以求出判别概率,但是知道判别式概率不能推出生成概率.所以大多数方法都使用判别式概率

第一部分:

其中第一部分主要包含的内容如下:

(1)几种机器学习的基本概念:包括监督学习,无监督学习,强化学习;

(2)机器学习的主要任务;

(3).机器学习主要使用的三种模型:包括线性模型,核模型,层级模型;

(1)几种机器学习:

1.监督学习:

指在老师的陪伴下学习,老师会在每次学习时告之对错.学生在知识经验的积累下,形成泛化能力,能够对没有学习过的知识给出正确答案.

在监督学习中,输入空间的每一个实例都是一个特征向量,所有特征向量组成的空间称为特征空间,需要将输入空间映射到特征空间,然后由定义在特征空间上的模型把结果映射到输出空间.

2.无监督学习:

指在没有老师监督下学习,

3.强化学习:

学生在学习的过程中,在没有老师提示的前提下,自己对预测的结果进行评估,为了获得正确答案不断进行学习.

4.统计学习:

用数据建立概率统计模型,用建立好的模型对未知数据进行预测和分析.学机器学习需要学的东西:概率论,统计学,信息论,计算理论,最优化理论及计算机科学.这些都要学(wtf)

统计学习方法:

给定独立同分布的训练数据集,训练出的模型属于一个集合(集合里包含所有的由输入空间映射到输出空间的函数),这个集合称为假设空间,假设空间里包含许多映射关系的函数,所以需要评价函数算法以便从假设空间里选取一个最优的模型.所以统计学习方法的三要素为:模型,策略,算法:

实现统计学习方法的步骤:

1.得到一个有限的训练数据集

2.确定所有由输入到输出的映射函数的集合,即寻找到假设空间

3.确定模型选择的准则,即某些约束条件

4.根据上述约束条件准则,设计算法,最优化假设空间内的模型,得到最优模型

5.根据上面得到的最优模型对新数据进行预测或分析

(2)机器学习的主要任务:

a.回归:输入变量与输出变量均为连续的预测问题.输出样本与真实值之间会存在噪声误差,比如学生向老师提问问题,存在老师的教学错误或者学生的理解错误,导致学生学习到的知识和真实的知识之间存在误差,老师的知识与真实函数f相对应,使学生最后能获得和老师一样的能力,即找到f函数是回归问题的目的.

b.分类:输出变量为有限个离散变量的问题.以d维实向量x作为输入样本,以1,2,...c个类别为输出空间,进行监督学习,在nlp领域,输入文本的特征向量,输出是文本的类别,把文本中的每一个词定义为一个特征

评价分类性能的指标一般是分类的准确率,即正确分类的样本数与总样本数之比

对于二分类问题常用的评价指标是精确率与召回率,

TP:将正类预测为正类数

FN:将正类预测为负类数

FP:将负类预测为正类数

TN:将负类数预测为负类数

精确率定义为: P=TP/(TP+FP)

召回率定义为: R=TP/(TP+FP)

F1值:精确率和召回率的调和均值: 2/F1=(1/P)+(1/R) 或者 F1=2TP/(2TP+FP+FN)

c.输入变量与输出变量均为变量序列的预测问题称为标注问题.是一个监督学习,输入是一个观测序列,输出是一个标记序列或状态序列,标注问题的目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测.构建一个条件概率模型P(Y1,Y2..|X1,X2...),对新输入观测序列找到相应的输出标记序列,具体的,对于每一个观测序列xn+1找到是条件概率P(yn+1|xn+1)最大的标记序列yn+1. 因为标记问题是扩展的分类问题,所以评价指标和分类模型的一样,常用的有标注准确率,精确率,召回率.在标注中常用的统计学习方法有:隐马尔可夫模型和条件随机场.

d.异常检测问题:后面会涉及到这部分的知识,事先不知道什么是正常数据,什么是异常数据的无监督异常检测问题中,采用密度估计的方法,把靠近密度中心的数据当做是正常的数据,把偏离密度中心的数据作为异常数据.

e.聚类:无监督分类,属于相同簇的样本之间具有相似的性质,不同簇之间的样本具有不同的性质.

f.降维:高维度数据中提取关键信息,降到低维度进行问题求解.有监督降维,{x,y}已知,会获得较高的泛化能力,无监督降维,转换为较低维度之后,应该保持原始输入样本{x}的数据分布性质,以及数据间的近邻关系不发生变化.

图解机器学习第一部分+(统计学习方法第一章知识.李航)