机器学习怎么学【1】Hello ML

人工智能与机器学习

机器学习与最近很热的人工智能基本上属于同一个范畴，人工智能是机器学习的一个高大上的名字，而机器学习则是实现人工智能的一个技术手段。例如，人脸识别，自动驾驶等人工智能时代热门的项目都是由机器学习实现的。

可以说，掌握了机器学习的方法，就相当于掌握了人工智能时代最核心的内涵。

事实上，机器学习发展了这么多年，不论是理论上还是实际生活中的应用中，都可以有其独有的作用。机器学习也已经在每个现代人生活中有及其重要的作用。

例如，我学机器学习时，最长举的例子就是垃圾邮件识别。垃圾邮件识别是机器学习中最经典的案例，通过查看邮件内的词频就可以初步了解一封邮件是否为垃圾邮件。

再比如，机器学习中最常用的另一个案例：鸢尾花数据集。通过分析一朵花的花瓣长度宽度，花萼长度宽度，就可以区分不同品类的鸢尾花。

机器学习可以帮助人们依据一些数据预测出一个案例的可能品类或者某属性的可能值,由于一些属性人们很难获取到，这种预测技术显得十分重要。

例如：是否可以通过某个糖尿病患者的一些体检指标来预测一个糖尿病患者患诸如失明等糖尿病并发症的概率，并且提前对这类的患者进行特定疾病的预防？

机器学习依据不同的目的有不同的实现方法，因而分为不同的类别。对于初学者来说，机器学习可以按照两种思路进行分类

举例说明，监督学习就好比教一个小孩水果分类，给小孩一个个具体案例，并告诉他这是苹果，这是香蕉，这是梨。等小孩遇到一个新的案例时，就会认识一个新的水果是苹果，香蕉还是梨。

监督学习的特点是对于有标签的数据进行学习与建模，这是监督学习区别于无监督学习的最大特点。

还是刚才的例子，如果我们不告诉小孩每个水果都是什么水果，小孩还能区分不同水果么？

答案是有可能，毕竟水果的区别是真实存在的，小孩如果足够聪明自然能发现水果与水果之间的差异，并自发给水果分类。这就是无监督学习的特点，学习的数据并没有标签，因此只可以以来数据的特征进行分类。

分类问题所面对的情形大体都为，希望通过机器学习所得模型预测一个实例的种类，而回归问题则是希望通过机器学习所得模型预测一个实例某一属性的具体值。

例如：通过小红周五吃的晚饭内容，来预测小红周六穿的衣服的颜色，颜色是类别变量，因此这个问题属于分类问题。
通过小红的身高来预测小红的体重，这里的体重是数值型变量，因此这个问题属于回归问题。

机器学习的确是一个很好用的工具，但是我们应该清楚，机器学习并不是无所不能的，甚至于机器学习在分辨垃圾邮件这件看似简单的工作中也并不是那么尽善尽美。

是的，机器学习是会犯错误的，这很正常，毕竟人也是要犯错误的。不过通过一些巧妙的方法，机器学习可以把错误率降低到很小，许多学者甚至可以将某个机器学习模型在某个特定的场景下的错误率降低到10%以内。天下没有白送的午餐，一个模型也不可能打遍天下无敌手。

另一种情况下，机器学习表现得很糟糕也并不是机器学习的问题。例如刚刚我举了一个预测小红周六出门穿的衣服的颜色例子，我举例时说要用周五晚上小红吃的东西来预测其周六出门穿的衣服颜色。从常理来说，吃什么和穿什么没有绝对联系，然而在机器学习方法中这两者可能有数据上的联系，因而机器学习也有可能得到准确的预测。

这很玄学，至今也无人能弄清楚。想找到某一个问题的最佳模型也常常不是一件容易的事情，这涉及到诸多方面。例如，数据的处理，模型的选取与参数的选择。

但是情况也没有过于糟糕，下一篇博客将为你展示机器学习模型在经典案例中的精彩表现，你可以尝试实现它们，相信这次尝试会给你带来探索机器学习更深层次使用的自信。