第一章：机器学习基础

文章目录

前言
本书结构
何谓机器学习呢？
人工智能机器学习深度学习

人工智能**（Artificial Intelligence）**：机器赋予人的智慧

弱人工智能-强人工智能

机器学习（Machine Learning）：一种实现人工智能的手段
深度学习(Deep Learning)：一种实现机器学习的方法
三者联系

补充

选择合适的算法：

参考

前言

本系列文章源自于读《机器学习实战》这本书的学习笔记，用于记录学习内容，不断更新，，

21世纪互联网的发展，使得我们对于数据的收集更加容易，在这样大量数据的前提下，我们必须要挖掘出海量数据的价值，而机器学习的算法受到许多爱好技术人员的青睐，是因为这些算法在一定程度上可以帮助我们进行一些诸如回归预测，分类，识别等诸多场景的应用。

何谓数据，信息，知识呢？

一切的实物都是数据，而信息是有用的数据

例如：通过测量行星的位置和对应的时间，我们得到的就是数据。而通过这些数据获得行星的轨迹就是信息，通过这些信息总结出来开普勒三定律就是知识了。

本书结构

《机器学习实战》全书共15章，主要是介绍了数据挖掘的十大算法其八：

C4.5决策树、K-均值（K-mean）、支持向量机（SVM）、Apriori、最大期望算法（EM）、PageRank算法、AdaBoost算法、k-近邻算法（kNN）、朴素贝叶斯算法（NB）和分类回归树（CART）算法。没有包括最大期望算法和PageRank 算法。本书没有包括PageRank算法，是因为搜索引擎巨头Google引入的PageRank算法已经在很多著作里得到了充分的论述，没有必要进一步累述；而最大期望算法没有纳入，是因为涉及太多的

选择本书的原因

本书的实战性比较强，每个章节都是用例子来说明的，符合我这种喜欢写代码的同学，如果是西瓜书我可能看着就睡着了，理论知识太多了。

我的计划是可以通过本书对这几个算法有一定的了解之后再选择西瓜书或李宏毅的课程进行研读。

由于书上实现都是用的python2.x，我会用python3.7将其复现，并用jupyter展示出来。

何谓机器学习呢？

机器学习是一类算法的总称，这些算法企图从大量历史数据中挖掘出其中隐含的规律，并用于预测或者分类，更具体的说，机器学习可以看作是寻找一个函数，输入是样本数据，输出是期望的结果，只是这个函数过于复杂，以至于不太方便形式化表达。需要注意的是，机器学习的目标是使学到的函数很好地适用于“新样本”，而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力，称为泛化（Generalization）能力。

简言之，机器学习可以揭示数据背后的真实含义

人工智能机器学习深度学习

人工智能是追求目标，机器学习是实现手段，深度学习是其中一种方法。

人工智能（Artificial Intelligence）：机器赋予人的智慧

1956年，几个计算机科学家相聚在达特茅斯会议，提出了“人工智能”的概念，梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器
2012年以后，得益于数据量的上涨、运算力的提升和机器学习新算法（深度学习）的出现，人工智能开始大爆发。

现在人工智能的研究领域只要有专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等

弱人工智能-强人工智能

我们现在所说的人工智能都是弱人工智能，能够实现具体的某一种任务，如人脸识别，机器翻译。
墙人工智能大概就像是人一样吧，能够自己学习everything

机器学习（Machine Learning）：一种实现人工智能的手段

机器学习的最基本做法，便是使用算法来对数据进行解析、学习，然后对真实世界中的数据/事件作出决策/预测。

根据使用算法的不同，机器学习的算法可包括：决策树、聚类、支持向量机、朴素贝叶斯等。

根据学习方法的不同，机器学习可以分为：监督学习、半监督学习、无监督学习、集成学习等。

深度学习(Deep Learning)：一种实现机器学习的方法

对机器学习来说，特征提取并不简单。特征工程往往需要大量的时间去优化，而此时，深度学习便可以自动学习特征和任务之间的关联，还能从简单特征中提取复杂的特征。深

度学习的概念源于人工神经网络的研究，含多隐层的多层感知器就是一种深度学习结构，深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示

三者联系

人工智能 >> 机器学习 >> 深度学习

补充

机器学习的任务个人理解是主要做分类与回归。分类和回归属于监督学习，之所以称之为监督学习，是因为这类算法必须知道预测什么，即目标变量的分类信息。

与监督学习相对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。对于离散型的遍历

选择合适的算法：

如果想要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。确定选择监督学习算法之后，需要进一步确定目标变量类型，如果目标变量是离散型，如是/否、1/2/3、A/B/C或者红/黄/黑等，则可以选择分类器算法；如果目标变量是连续型的数值，如0.0～100.00、999～999或者+∞～-∞等，则需要选择回归算法

离散型：分类器

连续性：逻辑回归

参考

机器学习简介

知乎-人工智能-机器学习-深度学习的区别

wu-ming

发布了91 篇原创文章 · 获赞 9 · 访问量 1万+

私信关注