机器学习的“进化”

机器学习是一种可以自动建立模型的数据分析方法。它是人工智能的一个分支，其核心思想是系统可以从数据中学习、进行模式识别，并在极少人为干预的情况下进行决策。

机器学习起源于模式识别，核心思想是计算机可以摆脱被动执行编程任务的模式，可以主动地从数据中学习。然而，机器学习并不是一门新的科学，而是一门获得了新动力的科学。

机器从先前的计算中学习，产生可靠的、可重复利用的决策和结果。同时，机器学习不断迭代，当模型暴露于新的数据时，它们能够自动适应。

虽然许多机器学习算法已经出现了很长一段时间，但是自动地将复杂的数学计算应用到大数据中却是最近的发展。由于融入了新的计算技术，今天的机器学习已经完全不同于过去的机器学习。

下面是一些你比较熟悉的机器学习的应用：

谷歌的无人驾驶汽车——机器学习的本质
亚马逊和Netflix的在线推荐——机器学习在日常生活中的应用
了解用户在Twitter上说了什么——机器学习与语言规则相结合
欺诈检测——现在最重要的用途之一

机器学习与人工智能的区别

人工智能是模仿人类能力的广泛科学，机器学习是人工智能的一个特定子集，它可以训练机器的学习能力。

机器学习为何如此重要？

与数据挖掘和贝叶斯分析相比，机器学习的可用数据在体量和维度上都大大增加，计算机的处理成本更低、运算能力更强，且数据存储容量更大。

所有这些都意味着可以快速、自动地生成模型，这一模型能够分析更多、更复杂的数据，并提供更快、更准确的结果。通过建立精确的模型，一个组织能够更好地发现盈利机会，或者避免未知风险。

创建机器学习系统需要什么？

数据准备能力
算法
自动化和迭代处理
可扩展性
组合建模

你知道吗？

在机器学习中，目标叫作“标签”；

在统计学中，目标叫作“因变量”；

在机器学习中，统计学中的变量叫作“特征”，变换叫作“特征生成”。

当今世界中的机器学习

通过使用算法来构建模型进行关联分析，我们可以在没有人为干预的情况下做出更好的决策。

机器学习在经济中的机会和挑战
机器学习助力信用卡评分
机器学习将应用于物联网

大多数涉及海量数据的业务公司已经认识到机器学习技术的价值。通过收集和分析这些数据，常常能够实时地洞察行业发展方向，从而有效地实施商业布局，显著提高行业竞争力。

金融服务

银行和其他金融机构使用机器学习技术有两个关键目的：深挖数据价值，防止欺诈。通过数据分析可以帮助投资者寻找投资机会，了解何时适合投资。同时，数据挖掘还可以识别具有高风险的客户，或者通过网络监视来精确地进行欺诈预警。

政府机构

政府机构，如公共安全和公用事业机构，由于具有多个数据源，可以利用机器学习方法深入地挖掘数据价值。例如，通过分析传感器数据，找到提高效率和节省资金的方法。同时，机器学习还可以帮助政府机构进行欺诈检测。

健康医疗

机器学习在医疗保健行业的应用也在快速增长，这得益于可穿戴设备和传感器的出现。这些设备可以实时评估患者的健康，帮助医生分析数据了解患者病情的发展情况，从而提高诊断准确率，并改善治疗效果。

营销和销售

基于先前的购物情况，购物网站可以使用机器学习分析你的购物历史来为你推荐你可能会感兴趣的其他商品。这种获取数据、分析数据并利用它进行个性化营销的能力，将是零售业未来的发展方向。

油和天然气

寻找新能源，分析地下矿藏，预测炼油厂传感器故障，精简油品配送，使其更高效、更具成本效益。机器学习在这个行业内的应用非常广泛，而且还在不断扩大。

交通运输

通过分析数据来识别交通运输的模式和趋势是交通运输业的关键，这依赖于使路线更有效率和预测潜在的问题以提高盈利能力。基于机器学习的数据分析和建模是快递公司、公共交通和其他运输组织的重要工具。

时下流行的机器学习方法

目前使用最为普遍的两种机器学习方法是有监督机器学习和无监督机器学习，除此之外，也有很多其他的机器学习方法。

有监督机器学习

有监督机器学习方法使用标签数据来训练，即已知输出的输入数据。例如，一个设备中的一些数据点可以被标记为“F”（失败）或“R”（运行）。机器学习算法接收了一系列输入数据以及相应的正确输出，因此算法可以通过比较它的实际输出与正确的输出来识别其中的错误，并利用这种方法不断学习正确的输入-输入对应关系。如此，算法模型得到不断优化、更新。通过分类、回归、预测和梯度提升等方法，有监督机器学习可以利用已知标签预测那些无标签数据。有监督机器学习常常用于基于历史数据预测未来事件的场景中。例如，它可以预见信用卡交易何时可能是欺诈行为，或哪些保险客户可能提出索赔。

无监督机器学习

无监督机器学习被用来对抗没有历史标签的数据。系统没有被告知“正确答案”，算法必须找出正在显示的内容。我们的目标是探索数据并找到其中的一些内部结构。无监督机器学习对事务处理型数据有很好的效果。例如，它可以识别具有相似属性的客户，在营销活动中进行类似的处理。或者可以将客户进行细分的主要属性。无监督机器学习技术主要包括自组织映射、最近邻映射、k-均值聚类和奇异值分解。这些算法也用于分割文本主题、推荐项目和识别数据离群点。

半监督机器学习

半监督机器学习与有监督机器学习的应用场景相同。它同时使用标签数据和无标签数据进行训练——通常是大量无标签数据和极少量标签数据，这是因为标签数据的获取成本较高，也很难获得。这种机器学习方法可以与分类、回归和预测方法同时使用。当完全使用标签数据进行训练的成本太高时，可以考虑使用半监督机器学习方法，这种方法的应用案例包括使用网络摄像头识别人脸。

强化学习

强化学习通常用于机器人、游戏和导航。通过强化学习，算法可以通过总结试验和错误经验了解哪些行动能够产生最大的回报。这种学习方法由3个主要部分构成：代理（学习者或决策者）、环境（与代理交互的一切）和动作（代理可以做什么）。目的是使代理人在给定的时间内选出能够使预期回报最大化的行动决策。通过制定良好的策略，能够更快地达到目标，因此，强化学习的目标是习得最好的策略。

人类通常每周可以创建一个或两个好的模型；机器学习可以一周创造成千上万个模型。

托马斯·H·达文波特（Thomas H. Davenport），摘自《华尔街日报》

数据挖掘、机器学习和深度学习有什么区别？

数据挖掘

数据挖掘可以被认为是许多不同方法的超集，最大限度地挖掘数据潜力。它利用许多不同领域的方法从数据中识别先前未知的模式，包括统计算法、机器学习方法、文本分析方法、时间序列分析方法和其他分析方法。数据挖掘还包括数据存储和数据操作的研究和实践。

机器学习

就像统计模型一样，机器学习的目标是理解数据的结构——在充分理解数据后拟合为理论。因此，对于统计模型，模型背后有一个理论上的数学证明，但这也要求数据符合某些假设。机器学习是为探索计算机探测结构数据的能力而开发的，机器学习测试就是利用新数据对现有模型进行验证。因为机器学习经常使用迭代的方法从数据中学习，所以学习可以很容易实现自动化。

深度学习

深度学习结合了计算能力和特殊类型神经网络的最新进展，以学习大量数据中的复杂模式。目前，深度学习技术已应用于识别图像中的物体和语音中的单词。研究人员现在正将这些成功应用于模式识别，以完成更复杂的任务，如自动语言翻译、医学诊断和许多其他重要的社会和商业问题。

什么是机器学习？（上）

什么是机器学习？（下）

人工智能（AI）经历了怎样的发展历程？

机器学习的“进化”

猜你喜欢