机器学习 1 初识机器学习

写在前面

学校开设了计算方法与人工智能，个人很感兴趣，然而一学期下来却没有认真学，很是惭愧。到期末了，开始重拾这门课。一直想在CSDN上写点文章，刚好借这个机会把学习过程记录下来，也希望能在这个地方遇到同学一起交流。

什么是机器学习

断断续续地听课加自学了K-Means聚类和SVM算法，算是初步知道了点概念。写一点自己对课上机器学习算法的理解吧，想法比较幼稚，敬请老师们指正。

研究一个实在的对象，可以是一个物体，也可以是一个现象，总的来说，研究的对象是生活中或者工程中的任何的东西，研究这个东西时关注它的n个特征。打个比方，研究苹果、鸭梨和橘子，研究它们的特征为：颜色、味道、价格（当然，这三个特征还可以分为更多的特征，比如颜色可以分解成红橙黄绿蓝靛紫这7个特征，为了叙述简介，把它们看成笼统的3个特征）。

在研究苹果、鸭梨和橘子的时候，只关注这三个特征，其他的特征，比如形状、成熟与否，都在研究范围之外，不去考虑。那么这三个特征，对于计算机来说，就是三个数字。这三种东西，苹果、鸭梨和橘子，在计算机看来就是3个向量。对于其他的物品，研究它们的n种特征，也和这个例子一样。在计算机看来，我们生活中的实在的东西，就都成了n维的向量。

这样一来，机器的世界观就很直观了。那么好，现在我们走进机器的世界，用机器的视角去理解我们的日常工作，并尝试去完成它，这就是人工智能了。对于机器学习，我们先考虑用计算机完成人类最基本的一个能力，就是分类。对日常生活中信息的处理，都是基于对它们分类的基础上的。

具体的分类方法是后话了，现在我们先假设我们有一个很好的分类方法去帮我们分类，先谈一谈分类这个事情怎么去完成。

我们先想一想小孩子是怎么学习分类的。我们在教小孩子分类的时候并没有去告诉他们为什么什么东西属于什么类，什么东西不属于什么类。我们是告诉他们什么东西有什么样的特征，这个东西属于什么类。在告诉他们的东西足够多的，对计算机而言就是数据足够多之后，他们就能自己去认识和判断一个从未见过的东西属于什么类别了。

对于计算机也一样。前面我们讲到，计算机看实在的东西是一个向量，那么很多个向量就张成了一个n维的空间，这些向量就是这个n维空间里的密密麻麻的坐标点。那么计算机要做的，就是把这个n维空间划分成很多块，每一块里的坐标点就是一类东西了。那么怎样让计算机自己学会划分呢？

我们首先给计算机一个划分模型。这个模型到底是什么样我们不谈，我们就假设已经有了这么一个模型。下面我们的工作（注意，现在我们就化身为计算机了）就是，通过给我们的很多很多的研究对象（也就是向量），去决定一种划分方式（也就是确定模型里的参数）。好，在给我们这个模型的时候，附带了一个指标，这个指标就是判断我们生成的划分方式好坏的指标（有最小二乘之类的，也是后话了），根据这个指标和博大精深的数学，可以推导出一个方程，方程的系数（当然一般是系数矩阵）是和给我们的很多很多的研究对象（也就是向量）有关的，而方程的自变量（当然一般也是个向量）就是要求的划分方式（也就是确定模型里的参数）。我们把给我们的很多很多的研究对象叫做训练集，然后把我们“学”会了的这个划分方式之后去判断的没有见过的东西叫做测试集。可以看出来，训练集和测试集是不相交，而且一般训练集的数据组数比测试集要大很多。

总结

上面稀里哗啦说了一大堆，下面总结一下我认为机器学习算法在干什么。

研究很多对象，关注他们的n个特征，
这些对象是n维的向量
有一个分类模型，通过训练集确定参数形成分类标准
用测试集测试形成的分类标准
测试合格，就说明模型好，形成了一个好的分类标准
可以用这个标准把研究对象进行分类了

MalcomXiang

发布了10 篇原创文章 · 获赞 5 · 访问量 561

私信关注

计算方法与人工智能算法-机器学习1 20191219

机器学习 1 初识机器学习

写在前面

什么是机器学习

总结

猜你喜欢