摘要：本文主要讲述了如何管理机器学习应用方面的棘手问题

应用机器学习是有挑战性的。

在机器学习领域，你必须要在没有正确答案的问题上做出很多决定！例如：

· 用什么框架？

· 用什么数据作为输入，要输出什么数据？

· 用什么算法？

· 用什么算法配置？

这些问题对于初学者来说是一个严峻的挑战。

读完本文之后，你将了解：

· 如何形成一个明确的学习问题。

· 当给你的问题设计一个学习系统的时候，有四个决策点需要考虑。

· 你可以用三个决策来明确地来应对在实践中设计学习系统的难题。

概述

本文分成了如下六个部分：

1、适定的学习问题

2、选择训练数据

3、选择目标函数

4、选择目标函数的表达形式

5、选择学习算法

6、如何设计学习系统

适定的学习问题

我们可以将应用机器学习领域中的一般学习任务定义为一个程序，它可以根据特定的性能测量从一些任务中学习经验。

Tom Mitchell在他1997年《Machine Learning》一书中做了清晰的阐述：

一个计算机程序是从某一类任务T和性能测量结果P中学习经验E的，如果它在T中的任务表现为P，则用经验E来改进。

我们以这个作为对那些我们可能感兴趣的学习任务类型的一般定义，例如预测建模等应用机器学习。Tom列举了几个例子来说明这一点，如下所示：

· 学习识别口语

· 学习无人驾驶

· 学习天体结构分类

· 学习世界级的双陆棋

我们用上面的定义来定义自己的预测建模问题。一旦定义了，任务就会变成设计一个学习系统来应对。

设计一个学习系统，如：一个机器学习应用，涉及了四个设计选择：

1、选择训练数据

2、选择目标函数

3、选择表达形式

4、选择学习算法

对于一个给定的问题并提供了无限的资源，可能有最好的一组选择，但是我们没有无限的时间来计算资源，以及领域内的或者是学习系统的知识。

因此，尽管我们能准备一个适定的学习问题的描述，设计这个最有可能的学习系统还是很困难的。我们最好就是用知识，技巧，和可用的资源通过设计的选择来进行我们的工作。

让我们更详细地看一下每一个设计选择

选择训练数据

你必须选择学习系统将要用到的数据作为学习经验。

这是过去观测到的数据

现有的训练经验类型对研究人员的成败有着重大影响。

对于学习问题，你必须经常收集需要的数据。

这个意思是：

· 清除文件

· 查询数据

· 执行文件

· 整理不同资源

· 合并实体

你需要一次性获取到所有的数据，并且变成一个标准化的形式，这样一个观测就代表了一个结果是可用的实体。

选择目标函数

下一步，你必须选择一个学习问题的框架

机器学习实际上是一个学习从输入（X）到输出（y）的映射函数（f）的问题

Y=f（x）

这个函数能被用在将来预测最可能输出结果的新数据上。

学习系统的目标是准备一个函数，提供了可用资源，将输入映射到输出。这是一个称为函数近似的问题。这个结果将是一个近似值，意味着有误差。我们将尽力减小这个误差，但是一些误差将一直在数据中存在并进行干扰。

这一步是关于精确地选择输入什么数据到这个函数，例如：输入特征或者输入变量还有预测什么，例如：输出变量。

我经常将此称为学习问题的框架,选择输入和输出本质上即是选择目标函数的类型，就是我们将寻求相近的函数。

选择目标函数的表达形式

下一步，你必须选择你希望用来映射函数的表达形式

考虑这个作为你希望能用来做预测的最终模型的类型。你必须选择这个模型的形式，选择是否你喜欢的数据结构。

现在我们已经详述了这个理想的目标函数V，必须选择一个表达形式，学习程序将用来描述将要学习的函数V。

例如：

· 也许你的项目需要一个易于理解并向利益相关方解释的决策树。

· 也许你的利益相关方倾向于一个线性模型，统计人员能很容易地解释。

· 也许你的利益相关方不关心除了模型表现以外的任何事，因此所有的模型表达形式都是可以争取的。

表示的选择将限制学习算法的类型，您可以使用这些算法来学习映射函数。

选择一个学习算法

最后，你必须选择学习算法，该学习算法执行输入输出数据并且学习你倾向的表达式的。

如果在表达形式的选择上面没有什么限制，那么经常是这样，然后你可能评价一系列不同的算法和表达式。

如果在表达形式的选择上面有一些严格的限制，例如：一个加权和线性模型或者一个决策树，那么算法的选择将被限于能操作特定表达形式的那些。

算法的选择可以利用自身的限制，例如像数据标准化那样的特定数据的准备转换。

如何设计学习系统

开发一个学习系统是有挑战性的。

从这个方式上没人能告诉你每个决定的最佳答案；对于你指定的学习问题，最好的答案是未知的。

Mitchell描述了在设计一个下棋学习系统所做的选择的时候，帮助澄清了这一点。

0?wx_fmt=jpeg

在设计一个下棋学习系统时的选择描述。

来自“Machine Learning”, 1997。

Mitchell说：

在许多方法上，这些设计选择已经约束了学习任务。我们已经限定了能被用来获取到一个线性评估函数的知识类型。除此之外，我们还限定了评估函数依赖于仅仅提供的这六个特定的板特征（board features）。如果这个正确的目标函数V能真正的被这些特殊特征的线性组合所表示，那么我们的程序会有一个好的机会来学习它。如果相反，那么我们希望最好是它将学习一个比较理想的近似值，因为一个程序肯定永远也学不到它至少不能表示的东西。

通常地，你不能通过分析的方法计算出这些选择的答案，例如用什么数据，用什么算法，用什么算法配置。

这里是你能在实践中用到的三个策略：

1、复制：看文献或者向专家学习与你的问题相同或相近的问题，并且复制学习系统的设计。很可能你不是第一个致力于给定类型问题的人。在最坏的情况下，复制的设计给你的设计提供了一个起点。

2、查找：在每个决策点列出可用的选项，并且对每一个进行经验评估，看看哪个对你的具体数据最有效。这可能是在应用机器学习中最健壮和最实用的成果

3、设计：通过上面的复制和查找方法，在完成了许多项目之后，你将为了如何设计及其学习系统而形成了一个直觉。

开发学习系统不是一个科学而是一个工程。

开发新的机器学习算法和描述它们如何工作与为什么工作是一门科学，并且在开发学习系统时，这通常不是必需的。

开发一个学习系统与开发软件非常的相似。你必须结合过去工作中设计的成果副本，能显示出有用的那些原型，还有为了得到最好的结果而开发一个新系统的时候的设计经验。

机器学习2017年重大进展汇总

云栖社区

摘要： 2017年注定是机器学习快速发展的一年，特别是机器学习商业化的成功是的更多的人积极的投入到机器学习的学习当中。机器学习一定会成为未来的技术，让我们看看这项未来的技术现在发展到何种程度。

很难相信在人工智能和机器学习领域里这一年发生了那么多的事情，很难做一个全面的系统的汇总。尽管如此，我还是尝试性的去做了一个汇总，希望能够帮助大家去回顾一下今天的科技到底发展到了何种程度。

1.Alpha Go Zero：创造者的兴起

0?wx_fmt=jpeg

如果让我必须选择今年的主要亮点，那就是AlphaGo Zero（论文）。这种新方法不仅在一些最有希望的方向上有所改进（如深度强化学习），而且也证实了这种模式可以在没有数据的情况下学习的范式转变（译者认为：这是思想的转变，在商业上，给了那么些没有大量数据的创新者一个机会）。我们最近也看到了Alpha Go Zero正在推广到象棋类的其他游戏。

2.GAN：不要怕，就要GAN

0?wx_fmt=jpeg

最近的一项元研究（meta-study）发现在GAN相关研究论文的报告指标上存在系统性错误。尽管如此，不可否认的是，GAN继续发挥着它的独到之处，特别是当涉及到图像空间的应用时（例如，渐进式GAN，pix2pix中的条件GANS或CycleGans）。

3.深度学习版的NLP：商业化的开端

今年的深度学习是NLP的天下，特别是翻译，NLP让我们感受到了翻译正在变得简单容易。Salesforce提供了一个有趣的非自回归方法，可以处理完整的句子翻译。也许更具开创性的是Facebook提供的无监督的方法UPV。深度学习也成功的帮助商家让它们的推荐系统做的更佳的完美。然而，最近的一篇论文也对最近的一些进展提出了质疑，例如kNN与Deep Learning相比有多么简单。与GAN研究一样，人工智能研究的惊人速度也会导致科学严谨性的损失，这也不足为奇。虽然人工智能的许多或大部分进展来自深度学习领域，但在AI和ML方面还有许多其他方面的不断创新也应该是值得让人关注的。

4.理论的问题：可解释性和严密性

0?wx_fmt=jpeg

与上面提到的一些问题有些相关的是，许多人批评这种方法的理论基础缺乏严密性和可解释性。就在前不久，阿里·拉希米（Ali Rahimi）在他的NIPS 2017谈话中将现代AI描述为“炼金术” 。Yann Lecun在一场不可能很快解决的辩论中迅速作出了回应。值得注意的是，今年在尝试推进深度学习的基础上，已经看到了很多的努力。例如，研究人员正在试图了解神经网络如何深度泛化。Tishby的信息瓶颈理论也在今年作为对某些深度学习属性的合理解释进行了长时间的辩论。正在为今年的职业生涯庆祝的辛顿也一直在质疑诸如使用反向传播的基本问题。佩德罗·多明戈斯（Pedro Domingos）等知名研究人员很快进入节奏，开发了使用不同优化技术的深度学习方法。Hinton提出的最后一个最近的根本性变化是使用（capsule）胶囊（见原文）作为卷积网络的替代品。

5.服务商的战斗：越来越好的开发体验

如果我们看一下人工智能的工程相关的成果，那么一年来，Pytorch开始挑起热潮，成为Tensorflow的真正挑战，特别是在研究方面。Tensorflow通过在Tensorflow Fold中发布动态网络迅速作出反应。大玩家之间的“AI之战”还有很多其他的战斗，其中最激烈的就是围绕着云。所有的主要供应商都已经加紧了，增加了他们在云中的AI支持。亚马逊已经呈现在他们的AWS，大创新，如他们最近的表现Sagemaker构建和部署ML车型。另外值得一提的是，更小的玩家也纷纷涌入.Nvidia最近推出了他们的GPU云，这是训练深度学习模式的另一个有趣的选择。所有的这些战斗无疑在未来都将大力推动工业升级。另外，新的ONNX神经网络表示标准化是互操作性的重要和必要的一步。

6.始终有待解决的未来的社会问题

0?wx_fmt=jpeg

2017年，人工智能方面的社会问题也得到了延续（升级）。伊隆·马斯克（Elon Musk）继续推动我们越来越接近杀手级AI的想法，令许多人感到沮丧。关于人工智能在未来几年会如何影响工作，也有很多讨论。最后，我们看到更多的焦点放在AI算法的可解释性和偏见上。

7.新的战场：机器学习+传统行业

最近几个月来，我一直在从事医学和医疗方面的人工智能方面的工作。我很高兴地看到，像“医疗保健”这样的“传统”领域的创新速度正在被迅速提高。AI和ML已经应用于医学多年，从60年代和70年代的专家系统和贝叶斯系统开始。不过，我经常发现自己引用了几个月前的文章。今年提出的一些最近的创新包括使用Deep RL，GAN或自动编码器来帮助患者诊断。最近人工智能的许多进步还集中在精准医学（高度个性化的医疗诊断和治疗）和基因组学上。例如David Blei的最新文章通过使用贝叶斯推断来预测个体是否具有对疾病的遗传倾向，从而解决神经网络模型中的因果关系。所有的大公司都投资人工智能在医疗保健领域。Google有几个团队，其中包括Deepmind Healthcare，他们在医学人工智能方面提出了一些非常有趣的进展，特别是在医学影像自动化方面。另外，苹果公司也在为苹果手表寻找医疗保健应用程序，而亚马逊也“秘密”地投资于医疗保健。很明显，创新的空间已经成熟。

0?wx_fmt=jpeg

Uber AI团队在深度强化学习的背景下提出了使用遗传算法（GA）的非常有趣的想法。在这5篇论文中，团队展示了GA如何成为SGD的一个竞争性替代方案。看到GA复出是件非常有趣的事情，我很高兴看到在未来几个月里它可以把我们带到哪里。

最后，我最近阅读了关于Libratus如何在单挑无限扑克（这是IJCAI早期论文的一个版本）上击败专家的科学论文。而AlphaGo Zero确实是一个非常令人兴奋的发展，事实上现实中的大多数问题可以更容易地被吸收到像Poker这样的不完善的信息游戏，而不是像Go或Chess这样的完美信息游戏。这就是为什么在这个领域的工作是一个真正令人兴奋的重要推动领域前进。除了上面提到科学论文之外，我还建议你去阅读以下两个：在不完全信息游戏中自我玩的深度强化学习，以及DeepStack：专家级人工智能在单挑无限制扑克中的应用。

本文由阿里云云栖社区组织翻译。

文章原标题《What-are-the-most-significant-machine-learning-advances-in-2017》，

作者： Xavier Amatriain 计算机科学博士，ML研究员。

译者：虎说八道，审阅：

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

640?wx_fmt=png

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

【机器学习】为什么机器学习难于应用

概述

适定的学习问题

机器学习2017年重大进展汇总

猜你喜欢