机器学习基础自学笔记2

以前看视频看博客学习深度学习，总感觉心里慌慌的，找不到重点，感觉不是很系统。现在虽然学的也很渣，不过感觉没那么慌了。教训是要多看书，自己思考，思考不明白再查博客大牛怎么讲的。希望我的感觉是对的吧。

1.1学习算法

机器学习算法是一种能够从数据中学习的算法。Mitchell提供一个简洁的定义：对于某类任务和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升。通常机器学习任务定义为机器学习系统应该如何处理样本（example），样本指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征（feature）的集合。一般将样本表示成一个向量，向量的每一个元素是一个特征。

常见的机器学习任务T：分类，输入缺失分类，回归，转录，机器翻译，结构化输出，异常检测，合成和采样，缺失值补填，去噪，密度估计或概率质量函数估计。

性能度量P：对于分类、缺失输入分类和转录任务通常用准确率或错误率来度量。性能度量的选择看上去简单且客观，但是选择一个与系统理想表现对应的性能度量通常是很难的。一些情况下，很难确定应该度量什么。在执行回归任务时，是应该惩罚一些中等错误的系统还是较少犯错但是犯大错的系统？这却决于具体情况。

经验E：根据学习过程中的不同经验，机器学习算法大致分为无监督算法和监督算法。大致来说，无监督学习涉及观察随机向量的好几个样本，试图显示或隐式地学习出概率分布；监督学习包含观察随机向量（x）极其相关联值（y），然后从x估计y。监督学习（supervised learning）形象的描述为老师提供目标y给机器学习系统，指导其应该做什么。无监督学习中，没有老师指导，算法必须学会在没有指导的情况下理解数据。无监督学习和监督学习不是严格定义的术语，它们之间界限通常是很模糊的。尽管无监督学习和监督学习并非完全没有交集的正式概念，它们确实有助于粗略分类我们研究机器学习算法时遇到的问题。传统上，人们将回归、分类或者结构化输出问题称为监督学习，将支持其他任务的密度估计称为无监督学习。

1.2 容量、过拟合和欠拟合

机器学习的主要挑战时算法必须能够在先前未观测到的新输入上表现良好。这种在先前未观测到的输入上表现良好的能力称为泛化（generalization）。未完待续。。。

机器学习基础自学笔记2

猜你喜欢