机器学习学习记录（一）机器学习绪论

认识机器学习(machine learning)：

机器学习是一门多领域综合学科，研究如何让程序，让AI优化自己的算法。其主要研究对象是让程序自我学习的算法（learning algorithm）。

就像人类学习一样，机器学习可以通过过往的经验对未知的情况进行判断，他的学习算法的很多思路其实也是通过研究人类学习，模仿人类学习得出来的。不得不说人类确实是很厉害的生物。

机器学习其实早已应用到我们的生活中，比如说在APP给你推送广告的过程中，你今天百度了“机器学习”，那么百度的算法就会学习到你对机器学习有兴趣。根据一定的逻辑，他会认为这是你的兴趣点，以后给你推送广告的时候会把有“机器学习”的标签的内容推送给你。

就训练数据集的性质来划分的话，机器学习可以大概划分为有监督学习和无监督学习。

而训练数据集就是指的在机器学习运作过程中一般可以划分为获取“经验”，使用这些“经验”进行对未知情况的判断。这个获取“经验”的过程叫做训练（fit/train），而训练的过程中使用的数据叫做训练集（training set）或者训练数据集。

人类可以对事物进行分类，假设说你认识一只猫。把猫的特征表达为四足行走的，爱吃鱼的，活蹦乱跳的……会发出喵喵叫的。这些特征称为这个数据的属性。对这些属性进行一个划分，给他一个分类---猫，这个猫称为这个数据的标签（label）。

提供的训练集中，如果每个数据都包含有标签(label)，称为有监督学习。没有标签称为无监督学习。

而有监督学习中，我们主要的应用集中于解决分类（classification）问题和回归（regression）问题。

无监督学习中，我们主要的应用集中于解决聚类（cluster）问题。

分类问题：给程序一个数据的属性集，他根据他的算法给你判定这个数据的分类。例如说：四足行走的，爱吃鱼的，活蹦乱跳的……会发出喵喵叫的，这样的数据给到程序他会判定这是一只猫。

回归问题：给程序一个数据的某些值，他会根据他的算法给你算出这个数据的余下的值。比如说根据前5天的股市行情预测明天的股市行情。

聚类问题：给程序一些数据，他根据他的算法给这些数据进行分类，即他会发现数据本身内在的规律，并对这些数据进行分类。比如说对一个位置的细菌群进行分类，我们现阶段并不知道这个细菌群有什么种类的细菌，我们希望程序帮助我们去发现这个细菌群的有什么类别，发展他们之间的内在联系，这个任务称为聚类。

所谓人工智能其实还是和数据打交道的，如何处理数据让其称为程序的过往经验，如何权衡数据的重要性/权（weight）是机器学习算法的重点。所以会对数学要求比较高。

线性代数

概率论

数理统计

信息论

（最优化理论）

（形式逻辑）

编程基础：

一般都使用python做人工智能的开发的编程语言，因为python当下做数据处理的性能好以及工具比较完备，辅以一些数据可视化等一些软件/库。

人们终于走向了大数据时代，克服了数据采集困难，数据价值不高等一些问题，人工智能的发展力度是前所未有的，我也是投入到人工智能学习的其中一员。希望能通过这博客帮助他人以及帮助自己学习，达到共同进步的目标。

如有错误或表达不准确可留言指出。