机器学习实战——笔记（第一章）

机器学习基础

一、机器学习的简单概述

机器学习应用领域十分广泛，如人脸识别、推荐系统、手写数字辨识及垃圾邮件过滤等。那何谓“机器学习”？

简单的说“机器学习”就是将无序的数据转换成有用的信息。
如：垃圾邮件过滤，一篇邮件中的某个单词不能代表该邮件的性质，但当某几个特定单词出现，再综合其他因素即可判断是否为垃圾邮件。（机器学习实战P3）

其实更官方的定义：计算机程序从经验E中学习解决某一任务T，进行某一性能度量P，通过P测定在T上的表现因经验E而提高。

机器学习的迅速发展得益于海量数据，下面举个书上的例子来说明机器学习过程：
场景描述：构建鸟类分类系统
任务：分类
特征：体重、翼展、脚蹼及后背颜色。（假设这四个特征就可识别一只鸟）
训练集：已收集的样本，每个样本都应包含以上四个特征，并标明是何种鸟类。
测试集：同样具备四个特征，但未标明是何种鸟类。

二、机器学习的主要任务

机器学习包括两大任务：分类和回归
分类：即找一个函数判断输入数据所属的类别，可以是二类别问题（是/不是），也可以是多类别问题（在多个类别中判断输入数据具体属于哪一个类别）。与回归问题（regression）相比，分类问题的输出不再是连续值，而是离散值，用来指定其属于哪个类别。分类问题在现实中应用非常广泛，比如垃圾邮件识别，手写数字识别，人脸识别，语音识别等。

回归：机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x，并且每一个输入矢量x都有对应的值y，要求对于新来的数据预测它对应的连续的目标值t

三、算法选择及开发步骤

如何选择合适的算法？
1.使用机器学习算法的目的，想要完成何种任务
2.需要分析或收集的数据是什么

开发步骤

收集数据（爬虫、设备实测数据、公开数据等等）
准备输入数据（主要是整理数据格式问题）
分析输入数据（主要确保数据集没有垃圾数据）
训练算法
测试算法
使用算法

四、Python语言的优势

嗯、Python用起来确实蛮爽的…
推荐用Jupyter notebook、PyCharm也行啦，前者你可以像写博客那样来撸代码。