01.深度学习简介------《Tensorflow实战Google深度学习框架》笔记

一、人工智能、机器学习与深度学习

    人工智能需要解决的就是包括自然语言理解、图像识别、语音识别等人类通过直觉可以很快解决但很难通过计算机解决的问题。如何让计算机掌握对人类来说非常直观的常识,对于人工智能的发展是一个巨大的挑战。

    早期的人工智能系统之所以能够成功应用于相对特定的环境(specific domain),如IBM的深蓝(Deep Blue);知识图库(Ontology)的建立是一个大的突破,其中WordNet最为出名,它进一步定义了近义词集之间的关系。除了WordNet,也有不少人将Wikipedia中的知识整理成知识图库,谷歌的知识图库就是基于Wikipedia创建的。

    但是建立知识图库一方面需要花费大量的人力物力,另一方面可以通过知识图库方式明确定义的知识有限,不是所有的知识都可以明确地定义成计算机可以理解的固定格式。所以如何让计算机可以跟人类一样从历史的经验中获得新的知识呢?这就是机器学习需要解决的问题。

    机器学习的定义:如果一个程序可以在任务T上,随着经验E的增加,效果P也可以随之增加,则称这个程序可以从经验中学习。

    如何数字化地表达现实世界中的实体,一直是计算机科学中一个非常重要的问题;也就是说,如何从实体中提取特征,对于很多传统机器学习算法的性能有巨大影响。同样的数据使用不同的表达方式会极大地影响解决问题的难度。一旦解决了数据表达和特征提取,很多人工智能任务也就解决了90%。

    但是特征提取不是一件简单的事情,深度学习解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并使用这些组合特征解决问题。深度学习室机器学习的一个分支,它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复杂的特征。

    总的来说,人工智能、机器学习和升读学习室非常相关的几个领域。它们之间的关系为:人工智能是一类非常广泛的问题,机器学习室解决这类问题的一个重要手段。深度学习则是机器学习的一个分支。在很多人工智能问题上,深度学习的方法突破了传统机器学习方法的瓶颈,推动了人工智能领域的发展。

二、深度学习的发展历程

    早期的神经网络模型类似于仿生机器学习,它试图模仿大脑的学习机理,其中McCulloch-Pitts Neuron结果和感知机模型极大地影响了现代机器学习,但它们有局限性。其中感知模型只能解决线性可分问题,无法解决异或问题;

    直到20世纪80年代末,第二波神经网络研究因分布式知识表达(distributed representation)和神经网络反向传播算法的提出而兴起。分布式的知识表达的核心思想是现实世界中的知识和概念该通过神经元(neuron)来表达,而模型中的每一个神经元也应该参与表达多个概念。分布式知识表达大大加强了模型的表达能力,让神经网络从宽度的方向走向了深度的方向,这为以后的深度学习奠定了基础。深层的神经网络是可以很好地解决类似异或问题等线性不可分问题的。

    在20世纪80年代末,研究人员在降低训练神经网络的计算复杂度上也取得了突破性成就,反向算法,卷积神经网络和循环神经网络等运用广泛。LSTM模型(long short-term memory)可以有效地对较长的序列进行建模,比如一句话或者一段文章。直到今天,LSTM都是解决很多自然语言处理、机器翻译、语音识别、时序预测等问题最有效的方法。

三、深度学习的应用

    深度学习在很多机器学习领域都有非常出色的表现,在图像识别、语音识别、音频处理、自然语言处理、机器人、生物信息处理、化学、电脑游戏、搜索引擎、网络广告投放、医学自动诊断和金融等各大领域均有应用。以下为几个深度学习应用比较广泛的领域。

1、计算机视觉

    计算机视觉是深度学习技术最早实现突破性成就的领域。随着2012年深度学习算法AlexNet赢得图像分类比赛ILSVRC(ImageNet Large Scale Visual Recogntion Challenge)冠军,深度学习开始受到学术界广泛的关注。

    在物体识别问题中,人脸识别是一类应用非常广泛的技术。深度学习技术通过从海量数据中自动习得更加有效的人脸特征表达,可以很好地解决这个问题。在人脸识别数据集LFW(Labeled Faces in the Wild)上,基于深度学习算法的系统DeepID2可以达到99.47%的识别率。

    在计算机视觉领域,光学字符识别(optical character recongnition,OCR)也是使用深度学习较早的领域之一。所谓OCR,就是使用计算机程序将计算机无法理解的图片中的字符,比如数字、字母、汉字等符号,转化为计算机可以理解的文本格式。

2、语音识别

    深度学习的方法在TIMIT数据集上将基于传统的混合高斯模型(gaussian mixture model,GMM)的错误率从21.7%降低到了使用深度学习模型的17.9%。随着数据量的增大,使用深度学习模型无论在正确率的增长数值上还是在增长比率上都要优于使用混合高斯模型的算法,深度学习之所以能完成这样的技术突破,最主要的原有是它可以自动地从海量数据中提取更加复杂且有效的特征。而不是如高斯混合模型中需要人工提取特征。

    基于深度学习的语音识别已经被应用到了各个领域,苹果公司推出的Siri系统,谷歌在安卓系统上推出的谷歌语音搜索,微软开发的从英语到汉语的同声传译系统等都是。

3、自然语言处理

    深度学习在语言模型(language modeling)、机器翻译、词性标注(part-of-speech tagging)、实体识别(named entity recognition,NER)、情感分析(sentiment analysis)、广告推荐以及搜索排序等方向上取得了突出成就。

    使用深度学习实现智能特征提取的一个非常重要的技术是单词向量(word embedding)。因为在自然语言处理领域中,由于有很多词表达了相近的意思,但这两个词的编码在计算机中可能差别很大,所以计算机就无法很好滴理解自然 语言所表达的语义。为了解决这个问题,研究人员人工建立了大量的语料库。通过这些语料库,可以大致刻画自然语言中单词之间的关系。在建好的语料库中,WordNet、ConceptNet和FrameNet是其中影响力比较大的几个,然而语料库的建立需要花费很多人力物力,而且扩展能力有限。单词向量提供了一种更加灵活的方式来刻画单词的语义。

    单词向量会将每一个单词表示成一个相对较低维度的向量(比如100维或200维)。对于语义相近的单词,其对应的单词向量在空间中的距离也应该接近。

4、人机博弈

   如AlphaGo战胜李世石

猜你喜欢

转载自blog.csdn.net/qq_25973779/article/details/80078861
今日推荐