吴恩达《机器学习》课程笔记——第一章:绪论 初识机器学习

【重要提示】:本人机器学习课程的主要学习资料包括:吴恩达教授的机器学习课程和黄广海博士的中文学习笔记。感谢吴恩达教授和黄广海博士的知识分享和无私奉献。作为机器学习小白,计划每周末记录一周以来的学习内容,总结回顾。希望大家多多挑错,也愿我的学习笔记能帮助到有需要的人。

1.1 什么是机器学习

卡内基梅隆大学的Tom Mitchell提出了一种机器学习的定义:电脑程序要完成任务(T),如果电脑程序获取关于任务(T)的经验(E)越多,就表现(P)越好,那么就可以说这个程序“学习”了关于任务(T)的经验。举个例子,Samuel编写了一个西洋棋程序。该程序要完成下棋的任务(T),西洋棋程序自己跟自己下了上万盘棋,并总结更容易赢的布局方式(E),该经验越多,那么程序就越清楚什么是好的布局,什么是不好的布局,该下棋程序表现更佳(P)。

我们不仅要掌握机器学习的算法,更重要的是也需要熟知每一种算法怎么使用。熟知不同算法的使用方法可以极大地提高效率,避免不必要的麻烦。目前的学习算法可主要分为两种,即监督学习和无监督学习,在下面的章节中具体介绍。

1.2 监督学习

我将监督学习和无监督学习归纳总结成下图:

监督学习指的就是我们给学习算法一个数据集,这个数据集由“正确答案”组成。比如在预测房价问题中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格(即它们实际的售价),然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。关于回归:回归是指变量之间的统计关系。①若先有模型,则已知X可求Y;②而“回归”的意思就是我们通过收集X与Y来确定实际上存在的关系模型:收集X、Y,从而确定模型。

再举一个监督学习的例子:假设说你想通过查看病历来推测乳腺癌是否为良性。让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出1和0表示是或者不是恶性肿瘤。如果是恶性则记为1,不是恶性或者说良性记为0。

 

我有5个良性肿瘤样本,在1的位置有5个恶性肿瘤样本。那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。关于分类:分类是指推测出离散的输出值,0或者1。事实上分类问题不仅有二值分类,还有多元分类。如希望预测的离散输出为0、1、2、3。在其它一些机器学习问题中,可能会遇到不止一种特征。举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄。在其他机器学习问题中,我们通常有更多的特征。

 

 图中右侧的英文翻译为:clump thickness(肿块厚度)、uniformity of Cell Size(肿瘤细胞尺寸的一致性)、uniformity of Cell Shape(肿瘤细胞形状的一致性)。

以上就是监督学习的内容。

1.3 无监督学习

对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案(right answers given)。而无监督学习中,没有任何的标签或者是有相同的标签或者就是没标签。针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。

无监督学习的应用实例:①新闻事件分类:谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。②市场分割:许多公司有大型的数据库,存储消费者信息。所以,检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,才能自动并更有效地销售或不同的细分市场一起进行销售。

 

以上,就是吴恩达机器学习课程第一章的主要内容。

 

猜你喜欢

转载自www.cnblogs.com/lky-learning/p/10263059.html