机器学习实战——笔记(第一章)

机器学习基础

目录
  • 机器学习的简单概述
  • 机器学习的主要任务
  • 算法选择与开发步骤
  • Python语言的优势
一、机器学习的简单概述

机器学习应用领域十分广泛,如人脸识别、推荐系统、手写数字辨识及垃圾邮件过滤等。那何谓“机器学习”?

简单的说“机器学习”就是将无序的数据转换成有用的信息。
如:垃圾邮件过滤,一篇邮件中的某个单词不能代表该邮件的性质,但当某几个特定单词出现,再综合其他因素即可判断是否为垃圾邮件。(机器学习实战P3)

其实更官方的定义:计算机程序从经验E中学习解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。

机器学习的迅速发展得益于海量数据,下面举个书上的例子来说明机器学习过程:
场景描述:构建鸟类分类系统
任务:分类
特征:体重、翼展、脚蹼及后背颜色。(假设这四个特征就可识别一只鸟)
训练集:已收集的样本,每个样本都应包含以上四个特征,并标明是何种鸟类。
测试集:同样具备四个特征,但未标明是何种鸟类。

二、机器学习的主要任务

机器学习包括两大任务:分类和回归
分类:即找一个函数判断输入数据所属的类别,可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。与回归问题(regression)相比,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。分类问题在现实中应用非常广泛,比如垃圾邮件识别,手写数字识别,人脸识别,语音识别等。

回归:机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t

三、算法选择及开发步骤

如何选择合适的算法?
1.使用机器学习算法的目的,想要完成何种任务
2.需要分析或收集的数据是什么

开发步骤

  • 收集数据(爬虫、设备实测数据、公开数据等等)
  • 准备输入数据(主要是整理数据格式问题)
  • 分析输入数据(主要确保数据集 没有垃圾数据)
  • 训练算法
  • 测试算法
  • 使用算法
四、Python语言的优势

嗯、Python用起来确实蛮爽的…
推荐用Jupyter notebook、PyCharm也行啦,前者你可以像写博客那样来撸代码。

猜你喜欢

转载自blog.csdn.net/m0_37970224/article/details/86064674