从利用认知 API 到构建出自定义的机器学习模型,中间有哪些坑?

如果你从西雅图驾车往东行,要不了多久就会看到风力发电机组。这些巨大的机器遍布在连绵起伏的丘陵和平原上,从刮过其间从不间断的风中生产电力。其中每一台风机都会生成海量的数据。这些数据被用于强化机器学习模型, 这些模型能让风机和风力电场更高效、更安全并且更少中断地运转。随着新版本模型的部署,将产生一组新数据,这些数据可用于评估和理解模型的表现情况,从而反过来促成开发更好的模型用于部署。数百年来,风车一直是人们利用风能的工具,如今,利用风能的工具每一天都在变得更高效、更安全,且更易于管理,因为我们有了机器学习。

 最近,技术领域由于与机器学习有关的能力、承诺和关注点而闹得沸沸扬扬。机器学习的历史与计算机科学深度交织在一起,的确,许多早期的计算机应用程序都是为了模拟人类的思考过程。比如回归、分类和聚类这样的技术在过去数十年中一直是数据分析师和科学家所使用的工具,它们用于解决与预测、 客户细分、客户流失分析、异常检测等有关的问题。互联网就是构建在机器学习之上的,像 Bing 和 Google 这样的搜索引擎已经开辟出新的方法来分析海量文本和媒体数据,对其进行索引,以及理解搜索查询背后的上下文和意图,以便将用户和与其最相关的结果匹配起来。自然有人会问,“这有什么大不了的, 为什么现在要这样做?”首先,思考一下这一处理会对应用程序、数据和设备带来的影响。

软件将变得更加个性化、更具交互性,并且由机器学习来驱动。简而言之, 所有形态和大小的应用都将从能够理解周遭环境,以及能够理解和预期到用户需求中受益。我所喜爱的 PowerPoint 的一个新特性就是列表分析,如果发现日期,则会建议将该列表转换成一个时间轴视图。这是非常简单的一项处理,但会为我们节省构建每一个演示、每一张幻灯片的时间。这个例子指明了每一个开发人员都将能够转换其应用程序的方向,以便让其用户的工作变得更高效。

机器学习离不开数据。无论是大批量数据还是流式数据,模型都是通过数据来训练、评估和改进的。机器学习让我们可以从所有形式和大小的数据中提取出很多有价值的信息。机器学习甚至可以用于充实数据。思考一下我们最近所编写的用于处理用户输入的代码。这些代码不过是在处理数值或者较短的字符串值而已。现代编程语言在处理这些数据类型时非常强大且高效。将这些类型延伸一下,比如图片、视频、音频或者大量文本。有哪些数据类型适用于对这些数据进行推导,而不仅仅是使用它们?机器学习使数据类型得以扩充,它 让我们可以处理更多不同的数据,并且可以将这些数据转换成能够在代码中进行推导的内容。诸如 Microsoft Cognitive Services 的 Cognitive API 让我们可以 轻易地将一张图片分解成各个组成部分。是否希望知道图片中有什么,其中有多少个人,他们是否开心?只需要使用一个简单的 HTTP 方法就可以达到目的。 该方法的输出可以轻易地被整合到我们的程序中以便进行决策,比如根据房间中的人员数量自动调节温度。

设备正变得越来越智能,并且在许多情况下,正变得越来越具有连接性。 基于从这些设备中观测到的数据所构建的机器学习模型,使得我们可以更好地理解设备及其周边环境。这使得我们可以构建更高效的设备,也会影响未来的设计,不过更为重要的是,这些模型可以用于预测故障或识别异常。来自这些设备的“数字化输出”是非常有价值的,不仅可以用于训练新模型,还可以提供一种机制来评估当前所部署模型的影响和输出。这一输出信息流对于创建模型开发、改进以及结果优化的良性循环而言是至关重要的。

关于这一点,其中一个最鼓舞人心的示例就是 Microsoft 的 AI for Earth 计划,该计划旨在向利用 AI 来推动可持续发展的组织提供资金帮助。我有幸与 一些受助者进行过交流,他们正在转变我们消耗、保护和管理自然资源的方式, 这些事情让我们注意到了作为行善力量的软件的能力。每一个行业都在经历这一转变过程,而这正是机器学习所驱动的。

 “为什么现在要这样做”的另一个关键方面就是云。云端的大量且强劲的计算资源的出现,以及 GPU 领域的硬件和软件创新已经促成大规模的创新,其中大部分创新都出现在深度学习领域。深度学习背后的基本原理并不是全新的, 神经网络模拟大脑神经元机能的建模源自 20 世纪中期。目前这最新一波创新浪潮的开启离不开三个方面的内容:算法的发展、计算处理能力以及数据。云提供了这三方面的支持,这使得人工智能领域的创新入门变得更加容易、更加快 速且成本更加低廉,并且可以根据需要发展壮大。

而这一切的基础就是同时理解可用的技术和工具。机器学习所涉及的内容不仅是简单地学习一个新库,或一门新的编程语言。它涉及理解工具和技术, 以及针对数据持续应用和优化开发过程。踏上这条道路的第一步就是深入研究并且立即开始学习。恭喜选购了本书并且阅读本书的读者。现在是成为一名开发者的无与伦比的好时机,因为云端的创新步伐和规模能够提升机器学习的开发效率。每一家主流云厂商都在对数据、机器学习和 AI 技术进行大力投入, 利用这些资源正当其时。在本书中,作者会带着读者体验这一旅程,从利用认知 API 到开发面向对话的应用程序,一直到最后构建出自定义的机器学习模型, 同时本书将让读者了解最流行的框架。希望读者都能尽快构建出自己的应用。

 

                                                                                                                         Matt Winkler

                                                                                                                         Group Engineering Manager—Microsoft Azure

                                                                                                                         华盛顿,伍丁维尔

 

内容节选自《认知计算攻略  使用Cognitive Services和TensorFlow》一书

———————————————————图书基本信息————————————————————————

书名:《认知计算攻略  使用Cognitive Services和TensorFlow》

ISBN:9787302554356

定价:98元

出版时间:2020年8月

京东链接:https://item.jd.com/12945770.html

猜你喜欢

转载自blog.csdn.net/qinghuawenkang/article/details/109044126
今日推荐