Azure 认知服务概述

背景知识

近些年随着机器学习、深度学习等技术的不断发展，人工智能在越来越多的场景得到了应用，如人脸识别、图像识别、语音识别、语音生成、自然语言处理、决策分析等等，让机器拥有了听、说、看和思考的能力，很大程度上解放了原来需要耗费的巨大人力，提高了生产力。

正因为如此，现在越来越多的行业和场景，想要拥有人工智能，作为自己业务的重要部分。在过去，想要实现自己的人工智能，需要组建人工智能算法团队、采集大量的数据并做标记、再经过长时间大数据量的训练后得出模型，这是一个漫长且高成本的过程。尤其是大量的数据采集和标记，对于大部分团队来说是不现实的。所以后来市面上就出现了很多把某项人工智能能力封装好的 SDK，这些团队把模型训练封装后，以收取授权费的方式提供给使用方，在这方面人脸识别 SDK 和 OCR SDK 算是较早成型的产品，Face++ 和商汤等团队都做过这样的实现。这样就很大程度上降低了人工智能引入的成本，让应用场景可以快速落地和运行，不过这种实现慢慢的也展现出一些弊端，因为数据模型本身的体积大、不易更新等问题，应用在接入几个不同能力的 SDK 后，体积就会变得很大，而且只能通过重新发布才能接入新的 SDK，所以后来就出现了基于云服务的 API 形式，运算过程和模型都在云端，应用中只需要通过认证和 API 调用就可以完成人工智能服务的使用，随着 5G 网络传输速度的提升和云服务器运算能力的不断提升，云服务中的人工智能被广泛的运用起来。

在各大云服务中，AWS、Azure、Google Cloud 和国内的阿里云、腾讯云、京东云、百度云等都提供了很丰富的人工智能服务。而 Microsoft Azure 认知服务，算是其中实现全面性和效果都很不错的一个，我们针对它做一下更详细的分析。

服务概述

Azure 认知服务是基于微软 Azure 云服务的 AI 能力的集合，开发者可以使用它快速使用人工智能服务，主要分为视觉、语音、语言、Web 搜索和决策五个部分，每个部分包含了一下服务能力。

官网介绍：https://azure.microsoft.com/zh-cn/services/cognitive-services/

1. 视觉

视觉是现在市面上非常常用的 AI 能力，国内的 AI 四小龙旷视、商汤、云从、依图都是从计算机视觉，或者更具体的人脸识别开始的。视觉主要会覆盖人脸识别、人脸检测、人体检测、物体识别、证件识别、文字识别等等。

而微软 Azure 认知服务的定义是识别和确定你的图片、视频和数字墨迹内容，为它们添加描述文字和索引，并审查这些内容，服务范围包括了：计算机视觉、自定义视觉服务、人脸、表单识别器、墨迹识别器和视频索引器。

计算机视觉 - 通用的计算机图像识别分类能力，对开发者提供的图像进行处理并返回图像的信息，包括标签、分类和识别等，通常会用于图像分类、图像打标签和图像三鉴等；

自定义视觉服务 - 自定义视觉是一种认知服务，用于生成、部署和改进自己的图像分类器。这项服务的特点是支持用户自定义的图像数据集和标签分类，对于没有机器学习训练环境的开发者还是很实用的；

人脸 - 人脸相关的 AI 能力，主要包括人脸检测和人脸识别。这项能力被广泛的应用在人群分析、人脸身份验证、刷脸支付、根据人脸的相册分组等场景；

表单识别器 - 该服务使用机器学习技术从表单文档中识别和提取文本、键值对和表数据。它会引入表单中的文本并输出包含原始文件中的关系的结构化数据；

墨迹识别器 - 识别输入中的形状和手写内容，以墨迹笔划为输入内容，输出为识别后的结果数据；

视频索引器 - 根据多个通道（语音、声乐、视觉对象）使用机器学习模型来提取视频中的深度见解，在很多 UGC 视频平台中，可以方便的为用户作品进行索引和标签化，并能很方便的检测视频的合法合规性等；

2. 语音

语音服务也是用途很广泛的服务能力，国内的讯飞、思必驰等公司都是在语音方面很有建树的公司，语音服务一般会包括语音识别、语音合成等方向。

微软的语音服务，主要包括语音识别、语音合成、发音人识别和检测等，服务包括：语音服务、说话人识别。

语音服务 - 语音服务主要包括语音识别、语音合成、语音翻译、语音助手等功能；常见的语音搜索就是利用了语音识别功能，而语音合成主要用户机器由文字合成语音，高德的地图播报使用的就是语音合成功能，语音翻译主要是实现对语音输入进行分析和翻译，而语音助手比如 Siri、Cortana 等利用的就是 bot 对用户语音的识别和分析等；

说话人识别 - 说话人识别主要包括说话人检测和说话人识别能力，分别为了解决是不是真人在说话和是谁在说话的问题，常用在语音验证信息的真人验证和说话人身份识别；

3. 语言

语言服务主要用于语言内容理解、文本内容分析等，通过该服务可以很好地进行语言内容的理解和关键信息分析提取、语言的情绪分析等。

微软的语言服务，主要包括语言理解、QnA Maker、文本分析、文本翻译。

语言理解 - 可将自定义机器学习智能应用到自然语言文本，以便预测整体含义并提炼出相关的详细信息；

QnA Maker - 一个基于云的自然语言处理 (NLP) 服务，它可以轻松地基于数据创建自然对话层。使用该服务可以基于自定义的信息知识库 (KB)，针对任何给定的自然语言输入查找最适当的回答；

文本分析 - 一种基于云的服务，它对原始文本提供高级自然语言处理，并且包含四项主要功能：情绪分析、关键短语提取、语言检测和实体识别；

文本翻译 - 文本翻译是一种基于云的机器翻译服务，使用先进的神经机器翻译技术并提供统计机器翻译技术；

4. 搜索

搜索服务的应用场景很多，可以实现对网页、文字、图像、视频和新闻能内容的搜索，在很多应用场景中可以基于搜索内容做进一步处理。

微软的搜索服务包括必应新闻搜索、必应视频搜索、必应 Web 搜索、必应自动建议、必应自定义搜索、必应实体搜索、必应图像搜索、必应视觉搜索、必应当地企业搜索和必应拼写检查。通过这些服务的名称，很容易能发现服务的能力范围，比如必应视频搜索，就是基于搜索词对视频内容和标签进行的搜索，而必应图像搜索，显然是针对图像集的搜索。

5. 决策

决策服务主要是基于 AI 能力对决策进行支持，包括对决策风险的分析和检测，基于数据对决策进行数据支撑分型、个性化分析决策支撑等场景。

微软的决策服务包括异常探测器、内容审查器和个性化体验创建服务。

异常探测器 - 可以使用异常检测器 API 来监视并检测与机器学习配合使用的时序数据中的异常。异常检测器 API 可以自动标识最佳适配模型并将其应用到数据，不限行业、场景或数据量，通过这种方式进行适应；

内容审查器 - 一项认知服务，用于检查文本、图像和视频中是否存在可能的违规性内容、有风险内容或其他令人不适的内容，该审查器会用到文本分析和图像检测、视频索引器等基础能力；

个性化体验创建服务 - 根据你提供的有关内容和上下文的实时集合信息，从内容项中选择最佳项，常见的应用场景包括千人千面的个性化推荐等；

结语

上面通过简单的文字描述，介绍了 Azure 认知服务的概况，接下来会针对各种不同的服务进行更深入的分析、基础使用方式介绍和基于实际场景的用法分析等。