信息技术导论 第六章 人工智能技术 笔记

第六章   人工智能技术

6.1 人工智能概述

6.1.1   人工智能的基本概念

1955年,人工智能的先驱之一约翰·麦卡首次将人工智能一词定义如下,人工智能是开发出行为像人一样的智能机器。

1983年,在《大英百科全书》中可以找到这样一个定义,人工智能是数字计算机或计算机控制的机器人,拥有与人类更高智能处理能力相关的问题的能力。

1991年,伊莱恩·里奇在《人工智能》一书中给出了人工智能的定义,人工智能是研究如何让计算机做目前人们擅长的事情。

人工智能,是模拟实现人的抽象思维和智能行为的技术,即通过利用计算机软件模拟人类特有的大脑抽象思维能力和智能行为,如学习、思考、判断、推理等,以完成原本需要人的智力才可胜任的工作。

6.1.2   人工智能的基本原理

1、人工智能的研究目标

MIT出版的著作《Artificial Intelligence at MIT.Expanding Frontiers》中论述为:“人工智能的中心目标是使计算机有智能,一方面是使它们更有用,一方面是理解使智能成为可能的原理。”研制像图灵所期望的那样的智能机器或智能系统,是人工智能研究的本质和根本目标(远期目标),人工智能研究的近期目标是实现智能机器。人工智能的学术流派:符号主义、连接主义与行为主义。

1) 符号主义学派

主要基于心理模拟和符号推演的方法进行人工智能研究,代表人物有纽厄尔、肖、西蒙等、费根鲍姆、尼尔森等。代表性的理念是所谓的“物理符号系统假设”,认为人对客观世界的认知基元是符号,认知过程是符号处理的过程。

重要成果如自动推理、定理证明、问题求解、机器博弈、专家系统等模拟人脑的逻辑思维,利用显式的知识和推理来解决问题,因此它擅长实现人脑的高级认知功能,如推理、决策等抽象思维。

2) 联接主义学派

主要采用生理模拟和神经让算的方法进行人工智能研究,代表人物有W.McCu1loch、wPitts、F.Rosenblatt、T.Kohonen、霍普菲尔德、D.Rymelhart。从人脑的生理层面,即微观结构和工作机理入手,以智能行为的生理模型为依据,采用数值计算的方法模拟脑神经网络的工作过程实现人工智能。擅长模拟人脑的形象思维,便于实现人脑的低级感知功能。

3) 行为主义学派

也称进化主义、控制论学派,认为人工智能起源于控制论,人工智能可以像人类智能一样逐步进化,智能取决于感知和行为,取决于对外界复杂环境的适应而不是表示和推理。基于控制论“感知—动作”控制系统的人工智能学派,代表人物是MIT的布鲁克斯教授。典型工作是布鲁克斯的六足机器虫。

2、人工智能的研究和应用领域

核心课题、知识的模型化和表示方法、启发式搜索理论、各种推理方法(演绎推理、规划、常识性推理、归纳推理等),人工智能系统和语言,其它:专家系统、自然语言理解、机器学习、分布式人工智能、人工神经网络、自动定理证明、博弈、机器人、模式识别、自动程度设计、智能控制、智能决策支持系统、智能电网等。

1) 专家系统

一种在相关领域中具有专家水平解题能力的智能程序系统。能运用领域专家多年积累的经验和专门知识,模拟人类专家的思维过程,求解需要专家才能解决的困难问题,由知识库、数据库、推理机、解释模块、知识获取模块和人机接口六部分组成。

2) 自然语言理解

主要研究如何使得许算机能够理解和生成自然语言,即采用人工智能的理论和技术将设定的自然语言机理用计算机程序表达出来,构造能够理解自然语言的系统。

自然语言三个研究目标:

①  计算机能正确理解人类的自然语言输入的信息,并能正确答复(或响应)输入的信息。

②  计算机对输入的信息能产生相应的摘要,而且复述输入信息的内容。

③  计算机能把输入的自然语言翻译成要求的另一种语言。

3) 机器学习

主要研究如何使得计算机能够模拟或实现人类的学习功能。

机器学习的研究,主要在以下三个方面进行:

①  研究人类学习的机理、人脑思维的过程。

②  研究机器学习的方法。

③  研究如何建立针对具体任务的学习系统。

4) 分布式人工智能

主要研究在逻辑或物理上实现分散的智能群体Agent的行为与方法,研究协调、操作它们的知识、技能和规划,用以完成多任务系统和求解各种具有明确目标的问题。

两个方向:

①  分布式问题求解。

②  多智能体系统实现技术。

5) 人工神经网络

一种由大量的人工神经元联结而成,用来模仿大脑结构和功能的数学模型或计算模型。

四个基本特征:

①  非线性。

②  非局限性。

③  非定常性。

④  非凸性。

6) 自动定理证明

是让计算机模拟人类证明定理的方法,自动实现向人类证明定理那样的非数值符号演算过程。除了数学定理之外,还有很多非数学领域的任务,如医疗诊断、信息检索、难题求解等,都可以转化成定理证明的问题。

常见方法:自然演绎法、判定法、定理证明器、计算机辅助证明等。

7) 博弈

诸如下棋、打牌、战争等竞争性的智能活动称为博弈。博弈的双方可以是个人或群体,也可以是生物群或智能机器,各方都力图用自己的智力击败对方。

8) 机器人学

机器人(Robotics)是一种可编程的多功能操作装置,能模拟人类的某些智能行为。机器人学是在电子学、人工智能、控制论、系统工程、信息传感、仿生学及心理学等多种学科或技术的基础上形成的一种综合性技术学科,人工智能的所有技术几乎都可在该领域得到应用,因此它可以被当作人工智能理论、方法、技术的试验场地。反过来,对机器人学的研究又大大推动了人工智能研究的发展。

9) 模式识别

是使让算机能够对给定的事物进行鉴别,并把它归于与其相同或相似的模式中,已在字符识别、医疗诊断、遥感、指纹识别、脸形识别、环境监测、产品质量监测、语音识别、军事等领域得到了广泛应用。

根据采用的理论不同,模式识别技术可分为模板匹配法、统计模式法、模糊模式法、神经网络法等。按照模式识别实现的方法来分,模式识别还可以分为有监督的分类和无监督的分类。

10)    自动程序设计

是设计一个程序系统,它以所设计的程序要实现的目标的高级描述作为其输入,以自动生成的一个能完成这个目标的具体程序为输出,即让计算机设计程序。包括程序的自动综合、程序自动验证、智能控制。

智能控制是指那种无需或少需人的干预,就能独立地驱动智能机器,实现其目标的自动控制,是一种把人工智能技术与经典控制理论及现代控制理论相结合,研制智能控制系统的方法和技术。

目前国内外智能控制研究方向及主要内容有:

智能控制的基础理论和方法,智能控制系统结构,基于知识系统的专家控制,基于模糊系统的智能控制,基于学习及适应性的智能控制,基于神经网络的智能控制,基于信息论和进化论的学习控制器,基于感知信息的智能控制,其他如计算机智能集成制造系统、智能计算系统、智能并行控制、智能容错控制、智能机器人等。

11)    智能决策支持系统

指在传统决策支持系统中增加了相应的智能部件的决策支持系统,是决策支持系统与人工智能,特别是专家系统相结合的产物,利用人类在问题求解中的知识,通过人机对话的方或,为解决半结构化和非结构化问题提供了决策支持。

由数据库系统、模型库系统、方法库系统、人机接口系统及知识库系统五部分组成。

12)    智能电网

是以物理电网为基础(其中,中国的智能电网是以特高压电网为骨干电网,各电压等级电网协调发展的坚强电网为基础),将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成形成的新型电网

智能电网建设中部分常用的人工智能相关技术:人工神经网络、专家系统、计算智能、分布式人工智能、机器学习等。

6.1.3   人工智能发展历程

1、人工智能的诞生

在20世纪40年代到20世纪50年代,一群来自不同领域(数学,心理学工程学,经济学和政治学)的科学家开始探索如何实现用生命体外的东西模拟人类的智慧。

1943年,麦卡洛克—皮特斯提出MP模型,即最早的基于阈值逻辑的神经网络。用神经网络模拟人类大脑的神经元。这是感知器的原型,开创了人工神经网络研究的时代。

1946年,世界上第一台通用电子数字计算机诞生,奠定了人工智能的硬件基础。

1951年,马文·明斯基和迪恩·埃德蒙兹建造了第一个神经网络机器SNARC。

1954年,乔治·戴沃尔设计了世界上第一台可编程的机器人。

1955年,纽厄尔和西蒙在JC肖的协助下开发了“逻辑理论家”。

1956年的达特茅斯会议是由麦卡锡、明斯基、罗彻斯特和香农等一批有远见卓识的青年科学家共同研究和讨论用机器来模拟智能的一系列相关问题,并首次提出了“人工智能”这一术语。该术语标志“人工智能”新学科的正式诞生。此外会议给了“人工智能”的第一个准确的描述。

2、人工智能的起步期

达特茅斯会议之后出现了AI发展第一次浪潮,主要包括计算机可以用于解决代数应用题、证明几何定理、学习和使用英语。最具有代表性的就是西蒙和纽厄尔推崇的自动定理证明方法。

1957年,罗森·布拉特基于神经感知科学背景,设计出了第一个计算机神经网络——感知器(the perceptron),它模拟了人脑的运作方式。

1960年,华裔美国数理逻辑学家王浩提出了命题逻辑的机器定理证明的新算法,利用计算机证明了集合论中的300多条定理。

1967年,最近邻算法出现,这使得计算机可以进行简单的模式识别。当时,研究者们在私下的交流和公开发表的论文中表达出相当乐观的情绪,认为具有完全智能的机器将在二十年内出现。有学者信心满满的宣称:不出十年,AI将为世界象棋冠军,证明所有定理,谱写优美音乐,并预测2000年,AI将超越人类。ARPA(国防高等研究计划署)等政府机构向这一新兴领域投入了大笔资金。

3、人工智能的第一个低谷

到了70年代,AI开始遭遇批评,随之而来的还有资金上的困难,同时,马文·明斯基对感知器的激烈批评,此后神经网络的研究进入了寒冬(直到1980年才再次复苏)。

20世纪70年代末,虽然这时期温斯顿的结构学习系统和海斯·罗思等基于逻辑归纳学习系统取得较大的进展,但它们都只能学习单一概念,而且未能投入实际应用。人工智能研究者们对项目难度评估不足,导致了承诺无法兑现,人们当初的乐观期望遭到严重打击,向AI提供资助的机构(如英国政府和NRC)对无方向的AI研究逐渐停止了资助。

4、人工智能的应用发展期

20世纪80年代机器学习取代逻辑计算,“知识处理”成为了主流AI研究的焦点。

1982年,物理学家约翰·霍普佛德证明一种新型的人工神经网络(“Hopfield网络”)能够用一种全新的方式学习和处理信息。

1986年,由鲁梅哈特和麦克莱兰为首的科学家提出基于误差反向传播算法的BP人工神经网络,解决了多层神经网络隐含层连接权的学习问题,并在数学上给出了完整推导。使1970年以来一直遭人遗弃的连接主义重获新生,掀起了人们研究人工神经元网络的热潮。

5、人工智能的第二次低谷

从20世纪80年代末到20世纪90年代初,AI遭遇了一系列财政问题。1987年AI硬件的市场需求突然下跌。Apple和IBM司生产的台式机性能不断提升,其性能已超过了Symbolics和其他厂家生产的昂贵的Lisp机。

6、人工智能的稳步发展期

1995年,瓦普尼克等人正式提出统计学习理论。

1997年,国际商业机器(IM公司的超级计算机“深蓝” 战胜了国际象棋世界冠军卡斯帕罗夫。

7、人工智能的蓬勒发展期

2006年,杰弗里、辛顿教授和他的学生在《科学》杂志上发表了文章,开辟了深度学习发展的时代。在深度学习提出后,卷积神经网络的表征学习能力得到了关注,并随着数值计算设备的更新得到发展。

自2012年的AlexNet开始,得到GPU计算集群支持的复杂卷积神经网络多次成为ImageNet大规模视觉识别竞赛的优胜算法。

2009年,随着深度学习技术特别是DNN兴起,语音识别框架由GMM—HMM变为DNN—HMM,语音识别进入了DNN时代,使语音识别精准率得到显著提升,进而让语音识别技术走出了近十年的停滞状态。

2011年,IBM的沃森在问答节目《危险》中最终战胜了人类。计算智能在这时达到了历史顶峰。

2015年以后,由于“端到端”技术兴起,语音识别进入了百花齐放时代,研究人员语音界都在训练更深、更复杂的网络,同时利用“端到端”技术进一步大幅提升了语音识别的性能。

2018年,百度在这之上获得突破,使得语音识别的准确率接近98%,并支持多种方言输入。

2012年,辛顿教授利用深度人工神经网络,在图像分类竞赛ImageNet上,以绝对优势战胜巨头谷歌,引起轩然大波。

2016年,谷歌的AlphaGo战胜人类棋手李世石。AlphaGo首次应用了强化学习,使得机器可以和自己对弈学习。

2017年5月27日,AlphaGo的2.0版本以3:0的比分胜界排名第一的中国围棋棋手柯洁九段,从此在AlphaGo面前已无人类。

2017年10月,在沙特阿拉伯首都利雅得举行的“未来投资倡议”大会上,机器人索菲亚被授予沙特公民身份,她也因此成为全球首个获得公民身份的机器人。

6.2 人工智能技术分类

6.2.1   深度学习的概念、常用算法

1、深度学习的定义

深度学习算法是一类基手生物学对人脑进一步认识,将神经—中枢—大脑的工作原理设计成一个不断迭代、不断抽象的过程,以便得到最优数据特征表示的机器学习算法;该算法从原始信号开始,先做低层抽象,然后逐渐向高层抽象迭代,由此组成深度学习算法的基本框架。

2、深度学习的一般特点和优点

使用多重非线性变换对数据进行多层抽象,以寻求更适合的概念表示方法为目标,形成一类具有代表性的特征表示学习(Learning representation)方法。

采用非线性处理单元组成的多层结构,使得概念提取可以由简单到复杂架构非常灵活,有利于根据实际需要调整学习策略,学习无标签数据优势明显。

3、深度学习的常用模型

深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:

①  基于卷积运算的神经网络系统,即卷积神经网络(CNN)。

②  基于多层神经元的自编码神经网络,包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。

③  以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

1) 卷积神经网络

由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和缓冲层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。为识制二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。

2) 循环神经网络

循环神经网络(Recurrent Neural Networks,RNNs)是深度网络中的常用模型,它的输入为序列数据,网络中节点之间的连接沿时间序列形成一个有向图,使其能够显示时间动态行为。

1982年,美国学者John Hopfield发现一种特殊类型的循环神经网络——Hopfield网络。作为一个包含外部记忆的循环神经网络,Hopfiled网络内部所有节点都相互连接,同时使用能量函数进行学习。

1986年,David Rumelhart提出反向误差传播算法(Error Back Propagtion Training,BP),系统解决了多层神经网络隐含层连接权学习问题。

1986年,Jordan在此基础上建立了新的循环神经网络,即Jordan网络。

1990年,Jeffrey Elman提出了第一个全连接的循环神经网络,即Elman网络。

3) 受限波耳兹曼机

一类可通过输入数据集学习概率分布的随机生成神经网络,是一种玻耳兹曼机的变体,但限定模型必须为二分图。

4) 自动编码器

基本过程:

①  给定无标签数据,用无监督学习学习特征。

②  通过编码器产生特征,训练下一层,然后逐层训练。

③  有监督微调。

5) 深度信念网络

一个贝叶斯概率生成模型,由多层随机隐变量组成。上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元构成可视层。也可以这样理解,深度信念网络就是在靠近可视层的部分使用贝叶斯信念网络(即有向图模型),并在最远离可见层的部分使用受限波耳兹曼机的复合结构。

6.2.2   自然语言处理

1、自然语言处理的概念

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。常见的自然语言处理:语音助手、翻译软件、评论归纳。

2、自然语言处理的基本任务

通常自然语言处理会用到以下基本任务:

①  分词:将句子分割成单词。

②  词性标注:标注每个单词的词性,比如主语、谓语、宾语、动词等等。

③  命名实体识别:在文本中识别出某类词是识别句子中的实体,一般识别这个实体我们经常会用到语料库,通常用来识别人名、地名、机构名这三类实体。

④  去除停止与低频词:去掉一些诸如“的”“了”“也”等词语,这些词语对于区分分档毫无帮助,不携带任何主题信息,低频词是出现次数较低的词语,比如一片采访稿的受访者名字,不能代表某一类主题。

3、自然语言处理的关键概念和技术
1) 信息抽取(IE)

信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究。信息抽取的主要过程有三步:首先对非结构化的数据进行自动化处理,其次是针对性的抽取文本信息,最后对抽取的信息进行结构化表示信息抽取最基本的工作是命名实体识别,而核心在于对实体关系的抽取。

2) 自动文摘

自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语信的简短,其次要保留重要信息。

3) 语音识别技术

语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语音,其目标是将人类语音中的词汇内容转化为计算机可读的数据。要做到这些,首先必须将连续的讲话分解为词、音素等单位,还需要建立一套理解语义的规则。语音识别技术从流程上讲有前端降噪、语音切割分帧、特征提取、状态匹配几个部分。而其框架可分成声学模型、语言模型和解码三个部分。

4) Transformer模型

Transformer模型在2017年,由Google团队中首次提出。Transformer是一种基于注意力机制来加速深度学习算法的模型,模型由一组编码器和一组解码器组成,编码器负责处理任意长度的输入并生成其表达,解码器负责把新表达转换为目的词。Transformer模型利用注意力机制获取所有其他单词之间的关系生成每个单词的新表示。Transformer的优点是注意力机制能够在不考虑单词位置的情况下,直接捕捉句子中所有单词之间的关系。模型抛弃之前传统的encoder—decoder模型必须结合RNN或者CNN(Convolutional Netural Networks,CNN)的固有模式,使用全Attention的结构取代了LSTM,减少计算量和提高并行效率的同时不损害最终的实验结果。但是此模型也存在缺陷。首先此模型计算量太大,其次还存在位置信息利用不明显的问题,无法捕获长距离的信息。

5) 基于传统机器学习的自然语言处理技术

自然语言处理可将处理任务进行分类,形成多个子任务,传统的机械学习方法可利用SVM(支持向量机模型)、Markov(马尔科夫模型))、CRF(条件随机场模型)等方法对自然语言中多个子任务进行处理,进一步提高处理结果的精度。但是,从实际应用效果上来看,仍存在着以下不足:

①  传统机器学习训练模型的性能过于依赖训练集的质量,需要人工标注训练集,降低了训练效率。

②  传统机器学习模型中的训练集在不同领域应用会出现差异较大的应用效果,削弱了训练的适用性,暴露出学习方法单一的弊端。若想让训练数据集适用于多个不同领域,则要耗费大量人力资源进行人工标注。

③  在处理更高阶、更抽象的自然语言时,机器学习无法人工标注出来这些自然语言特征,使得传统机器学习只能学习预先制定的规则,而不能学规则之外的复杂语言特征。

6、基于深度学习的自然语育处理技术

深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类人理解的过程。与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:

①  深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。

②  深度学习无需专家人工定义训练集,可通过神经网络自动学习高层言特征。

6.2.3   计算机视觉的概念

1、视觉
1) 视觉的概念

视觉可以分为视感觉和视知觉。感觉是较低层次的,主要接收外部刺激,对外部刺激是基本不加区别地完全接收;知觉则处于较高层次,要确定有外界刺激的哪些部分组合成关心的目标,将外部刺激转化为有意义的内容。

2) 视觉的最终目的

从狭义上说是要能对客观场景做出对观察者有意义的解释和描述;从广义上将,还包括基于这些解释和描述并根据周围环境和观察者的意愿来制定出行为规划,并作用于周围的世界,这实际上也是计算机视觉的目标。

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。这里所指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

2、计算机视觉的原理

计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,还没有条件实现像人那样能识别和理解任何环境,完成自主导航的系统。因此,人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是,在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视觉系统是论今为止,人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样,对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论。这方面的研究被称为计算视觉(Computational Vision)。计算视觉可被认为是计算机视觉中的一个研究领域。

3、计算机视觉系统

计算机视觉系统的结构形式很大程度上依赖于其具体应用方向。有些是独立工作的,用于解决具体的测量或检测问题;也有些作为某个大型复杂系统的组成部分出现,比如和机械控制系统、数据库系统、人机接口设备协同工作。计算机视觉系统的具体实现方法同时也由其功能决定——是预先固定的抑或是在运行过程中自动学习调整。尽管如此,有些功能却几乎是每个计算机系统都需要具备的:

①  图像获取:一幅数字图像是由一个或多个图像感知器产生,这里的感知器可以是各种光敏摄像机,包括遥感设备、X射线断层摄影仪、雷达、超声波接收器等。取决于不同的感知器,产生的图片可以是普通的二维图像、三维图组或者一个图像序列图片的像素值往往对应于光在一个或多个光谱段上的强度(灰度图或彩色图),但也可以是相关的各种物理数据,如声波、电磁波或核磁共振的深度,吸收度或反射度。

②  预处理:在对图像实施具体的计算机视觉方法来提取某种特定的信息前,专转预处理往往被采用来使图像满足后继方法的要求。例如:二次取样保证图像坐标的正确;平滑去噪来滤除感知器引入的设备噪声;提高对比度来保证实现相关信息可以被检测到;调整尺度空间使图像结构适合局部应用。

③  特征提取:从图像中提取各种复杂度的特征。例如:线、边缘提取;局部化的特征点检测如边角检测、斑点检测;更复杂的特征可能与图像中的纹理形状或运动有关。

④  检测分割:在图像处理过程中,有时会需要对图像进行分割来提取有价值的用于后继处理的部分,例如筛选特征点;分割一或多幅图片中含有特定目标的部分。

⑤  高级处理:到了这一步,数据往往具有很小的数量,例如图像中经先前处理被认为含有目标物体的部分。这时的处理包括:验证得到的数据是否符合前提要求;估测特定系数,比如目标的姿态,体积;对目标的分类。

高级处理有理解图像内容的含义,是计算机视觉中的高阶处理,主要是在图像分割的基础上再经行对分割出的图像块进行理解,例如进行识别等操作。

6.2.4   数据挖掘的概念、常用算法

1、数据挖掘的定义

数据挖掘(Data Mining)是一门受到来自各种不同领域的研究者关注的交叉性学科,有很多不同的术语名,除了常用的“数据挖掘”和“知识发现”之外,与数据挖掘相近的同义词有数据融合、数据分析、知识抽取、信息发现、数据采掘、知识获取,数据考古、信息收获和决策支持等。

从技术的角度讲,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明,只要能支持特定的发现问题即可。实际上,利用数据挖掘从数据集中所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

从商业的角度讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。

2、数据挖掘的内容

随着DM和KDD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。因此,KDD大会程序委员会曾经由这三个学科的权威人物同时来主席。前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。数据挖掘所发现的知识最常见的有以下四类:

①  广义知识。

②  关联知识。

③  分类知识

④  预测型知识。

3、数据挖掘的分析方法

数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。

①  分类:它首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的数据进行分类。

②  估值:估值与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作。

③  预测:它是通过分类或估值来进行,通过分类或储值的训练得出一个模,如果对于检验样本组而言,该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测。

④  相关性分组或关联规则:其目的是发现哪些事情总是一起发生。

⑤  聚类:它是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中。

4、数据挖掘的经典算法

目前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

1) 神经网络法

神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上,其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有“黑箱”性输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。

2) 决策树法

决策树是根据对目标变量产生效用的不同而建构分类的规则,通过一系列的规则对数据进行分类的过程,其表现形式是类似于树形结构的流程图。最典型的算法是J.R.Quinlan于1986年提出的ID3算法,之后在ID3算法的基础上又提出了极其流行的C 4.5算法。采用决策树法的优点是决策制定的过程是可见的,不需要长时间构造过程、描述简单,易于理解,分类速度快;缺点是很难基于多个变量组合发现规则。决策树法擅长处理非数值型数据,而且特别适合大规模的数据处理。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。

3) 遗传算法

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是“适者生存”原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。

4) 粗糙集法

粗糙集法也称粗糙集理论,是由波兰数学家Z Pawlak在20世纪80年代初提出的,是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,在其处理过程中前以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。粗糙集理论主要应用于近似推理、数字逻辑分析和化简、建立预测模型等问题。

5) 模糊集法

模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。

6) 关联规则法

关联规则反映了事物之间的相互依赖性或关联性。其最著名的算法是R.Agrawal等人提出的Apriori算法。其算法的思想是:首先找出频繁性至少和预定意义的最小支持度一样的所有频集,然后由频集产生强关联规则。最小支持度和最小可信度是为了发现有意义的关联规则给定的2个阈值。在这个意义上,数据挖掘的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。

6.3 人工智能主要应用领域

6.3.1   国内常用人工智能平台

近年来,人工智能热潮迭起。前谷歌首席CEO兼现任谷歌母公司Alphabet执行董事长埃里克·施密特和创新工场创始人兼CEO李开复都曾表示过“相对美国,中国AI发展会更快更高效”的言论。对于首批公布的人工智能四大平台在AI领域又做了哪些突出贡献?

1、百度——自动驾驶

百度在AI领域早已深耕已久。2017年4月,百度公布了“Apollo(阿波罗)计划”,向全产业链开放百度在自动驾驶方面的技术能力,打造智能汽车界的“安卓”。目前,阿波罗生态合作伙伴超70家,覆盖整车、零部件、出行服务等自动驾驶的关键领域。

百度董事长兼CEO李彦宏此前曾表示,人工智能时代,技术变得很重要,技术是百度的长处,Apollo系统是开放的,可以为更多合作伙伴提供相关技术服务。汽车行业是一个很大的市场,其产值占中国GDP的六分之一左右。百度凭借AI技术,在该市场上将有很多事情可以做。

百度集团总裁兼首席运营官陆奇也对Apollo未来的发展寄予厚望:“Apollo已成为汽车界最创新、最开放的生态,它的量产化、商业化进程在不断加速,比我们想象中的还要快。”他称,Apollo正在带来一个前所未有的智能出行城市样本,一个快速变革的汽车行业,一个颠覆性的智能出行时代。未来,百度将在Apol1o平台基础上,在3—5年打造成国家级自动驾驶系统级开放创新平台。

2、阿里——ET城市大脑

阿里云ET城市大脑是目前全球最大规模的人工智能公共系统,可以对整个城市进行全局实时分析,自动调配公共资源,修正城市运行中的Bug,成为未来城市的基础设施。

自2016年10月“城市大脑”在杭州落地后,苏州、衢州、澳门等城市也进行了推广。在各界看来,“城市大脑”将会是城市重要的基础设施。据杭州市政府介绍,杭州城市大脑接管了杭州128个信号灯路口,试点区域通行时间减少15.3%,高架道路出行时间节省4.6分钟。在主城区,城市大脑日均事件报警500次以上,准确率达92%;在萧山,120救护车到达现场时间缩短一半。

阿里巴巴首席技术官王坚表示,在预判交通流量,给出解决方案上面,机器比人工更具优势。“以数据大脑为核心,实时监控分析道路车流量,依据动态的交通数据,自动切换和调配信号灯时间,甚至在车流巨大的路段,全程绿灯不停车,是城市大脑给出的一套城市治堵方案。”

据亿邦动力网了解,昨日,阿里云和国内智慧城市解决方案提供商和数据运营服务商银江股份达成战略合作关系,双方将在智慧交通及城市大脑领域展开基于阿里云计算平台、云产品及业务的多方面密切合作,通过共享各自领域的优质资源,深度整合双方产品和解决方案,共同拓展市场。

阿里方面表示,除了城市大脑,未来阿里云ET大脑将还在工业、医疗、环境方面构建开放平台,打造人工智能与重人定业转合的跨界开放生态体系。

3、腾讯——医疗影像

医疗市场已成为人工智能规模最大以及增长最快的领域之一。2017年8月,腾讯发布了一款人工智能医学影像产品“腾讯觅影”。据悉,腾讯觅影是一款聚合了多个顶尖人工智能团队,把图像识别、深度学习等技术与医学跨界融合,主要用于筛常见恶性肿瘤的AI产品。它包含有6个人工智能系统,涉及疾病包含食管癌、肺癌、糖网病、宫颈癌和乳腺癌。目前,该产品筛查一个内镜检查用时不到4秒,对早期食管癌的发现准确率高达90%,对早期肺癌的敏感度可达到85%以上,而在良性肺结核的特异性可达到84%以上。

在人工智能浪潮下,腾讯绝对不是最早的一个。不止是医疗体系,腾讯还在金融、内容、社交等多领域布局人工智能。马化腾曾多次表示:“腾讯AI布局注重场景应用,而不是为了研究而研究。”

4、科大讯飞——智能语音

科大讯飞在在语音合成、语音识别、口语评测、语言翻译、声纹识别、人脸识别、自然语言处理等智能语音与人工智能核心技术上处于领先水平。其中,在语音合成技术评分中,科大讯飞获评4.0分,达到美国大学生真人说话水平。在语音识别中,科大讯飞宣布2017年将方言识别种类,拓展至2012种,而且各项指标都相较2016年提升了50%以上,其中准确率超过90%的方言识别已经接近10种。据悉,科大讯飞此前已率先发布了全球首个提供移动互联网智能语音交互能力的讯飞开放平台,截至2017年11月,讯飞开放平台的累计终端数已经达到15亿,日均交互次数达到40亿。基于该开放平台,相继诞生了讯飞输入法、灵犀语音助手等示范性应用,且各类语音应用已深入与市民生活、学习、工作相关的教育、医疗、司法、智慧城市、客服等各领域。

5、华为云

华为云是华为的云服务品牌,将华为30多年在ICT领域的技术积累和产品解决方案开放给客户,致力于提供稳定可靠、安全可信、可持续创新的云服务赋能应用、使能数据、做智能世界的“黑土地”,推进实现“用得起、用得好用得放心”的普惠AI。华为Atlas人工智能计算平台,是基于华为昇腾系列AI处理器和业界主流异构计算部件,通过模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“云、边、端”的全场景AI基础设施方案,可广泛用于“平安城市、智慧交通、智慧医疗、AI推理”等领域。

6.3.2   人工智能的应用领域

1、农业:农业中已经用到很多的AI技术,无人机喷撒农药,除草,农作物状态实时监控,物料采购,数据收集,灌溉,收获,销售等。通过应用人工智能设备终端等,大大提高了农牧业的产量,大大减少了许多人工成本和时间成本。

2、通信:智能外呼系统,客户数据处理(订单管理系统),通信故障排除,病毒拦截(360等),骚扰信息拦截等。

3、医疗:利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设各之间的互动,逐步达到信息化。例:健康监测(智能穿戴设备)、自动提示用药时间、服用禁忌、剩余药量等的智能服药系统。

4、社会治安:安防监控(数据实时联网,公安系统可以实时进行数据调查分析)、电信诈骗数据锁定、犯罪分子抓捕、消防抢险领域(灭火、人员救助、特殊区域作业)等。

5、交通领域:航线规划、无人驾驶汽车、超速、行车不规范等行为整治。

6、服务业:餐饮行业(点餐、传菜,回收餐具,清洗)等,订票系统(酒店、车票、机票等)的查询、预定、修改、提醒等。

7、金融行业:股票证券的大数据分析、行业走势分析、投资风险预估等。

8、大数据处理:天气查询,地图导航,资料查询,信息推广(推荐引擎是基于用户的行为、属性(用户浏览行为产生的数据),通过算法分析和处理,主动发现用户当前或潜在需求,并主动推送信息给用户的浏览页面。),个人助理。

6.3.3   人工智能未来发展趋势

1、AI推动芯片产业变革

芯片产业正在因为AI发生洗牌,传统的芯片产业格局将会发生巨大变化,这种情况将在2019年更加突出。以AWS、微软、谷歌、Facebook、阿里云为首的技术驱动型公司将加大AI芯片的投入,会给芯片市场带来更多变数。之所以越来越公司开始投入到AI芯片研发之中,是因为AI模型训练需要专门的硬件来执行复杂的数学计算,才能加快执行目标检测和人脸识别等任务,AI芯片可以针对计算机视、自然语言处理和语音识别相关的特定用例及场景进行优化。

2019年,英特尔、英伟达、AMD和高通等传统芯片制造商将推出专门AI芯片。而以AWS、Facebook、阿里云等超级技术公司则会加大对芯片的研发投入,这些芯片将在AI和高性能计算基础上针对现代工作负载做出大量优化,其中某些芯片还将帮助下一代数据库加快查询处理和预测分析速度。

可以说,对于技术驱动型公司而言,AI芯片无疑是全栈AI能力的一个重要环节,不会轻易放弃。

2、边缘计算推动AI与IoT融合

边缘计算的好处就是能够更加快速的响应需求,对于物联网等应用可谓是再合适不过。2019年开始,公有云上越来越多模型将开始用于边缘计算,尤其是对设备进行异常检测、根源分析和预测维护的工业物联网是AI的最佳用例。基于深度神经网络的先进机器学习模型将得到优化,以便在边缘运行,未来将有能力处理视频、语音等非结构化数据。物联网必将成为企业人工智能的最大推动力。

3、ONNX将打破神经网络互操作性阻碍

如今,一大堆各种机器学习框架,加上一大堆各种人工智能硬件平台,框架和平台之间缺乏良好的支持,给机器学习和人工智能应用带来了严重阻碍。2019年,这种情况将会得到改善。ONNX组织的成立,将让神经网络工具包、硬件平台之间互操作性大幅提升。之前模型只能在特定框架中进行调试和评估的情况将大幅改善。

微软、Facebooke等公司发起了“开放式神经网络交换”(ONNX)组织,并提出了相应的标准格式,使得经过调试的神经网络模型向其他框架移植成为可能。目前,已经有阿里云、百度云、英伟达等一批公司加入到该组织之中,2019年ONNX将变得更加重要,从研究人员到制造商等所有核心参与者都将依赖ONNX作为推理的标准运行框架。

4、自动化机器学习将成为主流

自动化机器学习(AutoML)已成为一个发展趋势,它将从根本上改变基于机器学习的解决方案,可使其不经过传统调试程序即可改进机器学习模型,进而处理复杂的场景。AutoML非常适用于认知应用编程接口(API)和自定义机器学习平台。与被视为“黑盒子”的认知API不同,自动化机器学习既能提供同等的灵活性,同时又具备自定义数据和可移植性。

5、AIOps实现DevOps自动化

DevOps是一套完整的IT运维工作流,以IT自动化和持续集成、持续部署为基础,来优化程序开发、测试、系统运维等所有环节。DevOps强调软件开发人员和运维人员的沟通合作,通过自动化流程来使软件的构建、测试、发布更加快捷、频繁和可靠。

AIOps即AI for IT Operations,指将人工智能应用于IT运维领域,基于已有的运维数据,通过机器学习来进一步解决自动化运维难以解决的问题。现代化应用程序和基础设施可以生成用于索引、搜索和分析的日志数据。从硬件、操作系统、服务器软件和应用软件中获取的海量数据集可以聚合和关联,然后形成方案和模式。

猜你喜欢

转载自blog.csdn.net/Mengxizhouu/article/details/131315506