人工智能 | 自然语言处理研究报告(应用篇)

版权声明:本文为博主原创文章,未经博主允许不得转载。转载注明文章出处!!! https://blog.csdn.net/u011344545/article/details/89574915

博主github:https://github.com/MichaelBeechan
博主CSDN:https://blog.csdn.net/u011344545

============================================
概念篇:https://blog.csdn.net/u011344545/article/details/89525801
技术篇:https://blog.csdn.net/u011344545/article/details/89526149
人才篇:https://blog.csdn.net/u011344545/article/details/89556941
应用篇:https://blog.csdn.net/u011344545/article/details/89574915

============================================
清华AMiner团队 AMiner.org

从知识产业角度来看,自然语言处理软件占有重要的地位,专家系统、数据库、知识库,计算机辅助设计系统(CAD)、计算机辅助教学系统(Cal)、计算机辅助决策系统、办公室自动化管理系统、智能机器人等,全都需要自然语言做人机界面。长远看来,具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引及自动文摘等领域,有着广阔的应用前景。
随着自然语言处理研究的不断深入和发展,应用领域越来越广。
文本方面的应用主要有:基于自然语言理解的智能搜索引擎和智能检索智能机器翻译自动摘要与文本综合文本分类与文件整理智能自动作文系统自动判卷系统信息过滤与垃圾邮件处理文学研究与古文研究语法校对文本数据挖掘与智能决策以及基于自然语言的计算机程序设计等。
语音方面的应用主要有:机器同声传译、智能远程教学与答疑、语音控制、智能客户服务、机器聊天与智能参谋、智能交通信息服务(ATIS)、智能解说与体育新闻实时解说、语音挖掘与多媒体挖掘、多媒体信息提取与文本转化以及对残疾人智能帮助系统等。
此外,建立在自然语言处理技术基础之上的心理学、认知学、哲学、混沌学说的共同发展,将使人们对智能的起源问题有新的认识。如果把计算机网络和未来的网格看作是由机器组成的机器社会,那么一种属于机器的智能可能会因为人类的参与以及机器社会中各元素的相互作用而自然诞生。这样,机器必将能够通过“图灵测试”,达到“会思考”的层次。而有关智能机器的研究也会诞生一系列新的领域,比如,机器心理学和机器认知学等。
其中,机器心理学主要研究机器的心理反应和意图。美国圣迭戈神经科学研究所研制的机器人 DarwinV II,能够根据其感知对外部事物进行分类,并根据经验和知识采取相应的对策。然而,机器心理学的研究不能局限于此,人们还需要对机器的意识、知觉、思想、情感、情绪、创造力、机器社会、机器交流等方面进行研究,而这一切还需要计算机科学、心理学、神经科学的同步发展。
我们选取一些自然语言处理应用较为频繁的场景进行介绍。

1、知识图谱

知识图谱能够描述复杂的关联关系,它的应用极为广泛,最为人所知的就是被用在搜索引擎中丰富搜索结果,并为搜索结果提供结构化结果体现关联,这也是 google 提出知识图谱的初衷。同时微软小冰、苹果 siri 等聊天机器人中也加入了知识图谱的应用,IBM Watson是问答系统中应用知识图谱较为典型的例子。按照应用方式,可以将知识图谱的应用分为语义搜索、知识问答、以及基于知识的大数据分析和决策等。
语义搜索利用建立大队莫知识库对搜索关键词和文档内容进行语义标注,改善搜索结果,如谷歌、百度等在搜索结果中嵌入知识图谱。知识问答是基于知识库的问答,通过对提问句子的语义分析,再将其解析为结构化的询问,在已有的知识库中获取答案。在大数据的分析和决策方面,知识图谱起到了辅助作用,典型应用是美国 Netflix 公司利用其订阅用户的注册信息以及观看行为构建的知识图谱反映出英剧版《纸牌屋》很受欢迎,于是拍摄了美剧《纸牌屋》,大受追捧。
在这里插入图片描述

2、机器翻译

机器翻译是自然语言处理最为人知的应用场景,一般是将机器翻译作为某个应用的组成部分,例如跨语言的搜索引流等。目前以 IBM、谷歌、微软为代表的国外科研机构和企业均相继成立机器翻译团队,专门从事智能翻译研究。如 IBM 于 2009 年 9 月推出 ViaVoiceTranslator 机器翻译软件,为自动化翻译奠定了基础;2011 年开始,伴随着语音识别、机器翻译技术、DNN(深度神经网络)技术的快速发展和经济全球化的需求,口语自动翻译研究成为当今信息处理领域新的研究热点;Google 于 2011 年 1 月正式在其 Android 系统上推出了升级版的机器翻译服务;微软的 Skype 于 2014 年 12 月宣布推出实时机器翻译的预览版、支持英语和西班牙语的实时翻译,并宣布支持 40 多种语言的文本实时翻译功能。
尤其值得之注意的是,在“一带一路”这一发展背景下,合作沟通会涉及 60 多个国家、53 种语言,此时机器翻译的技术应用显得尤为重要,语言的畅通是“一带一路”战略得以实施的重要基础。而机器翻译涉及到语义分析、上下文环境等诸多挑战,其发展道路还有很长一段路要走。

3、聊天机器人

聊天机器人是指能通过聊天 app、聊天窗口或语音唤醒 app 进行交流的计算机程序,是被用来解决客户问题的智能数字化助手,其特点是成本低、高效且持续工作。例如 siri,小娜等对话机器人是一个应用场景。除此之外,聊天机器人在一些电商网站有着很实用的价值,可以充当客服角色,例如京东客服 jimi,有很多基本的问题,其实并不需要真的联系人工客服来解决。通过应用智能问答系统,可以排除掉大量的用户问题,比如商品的质量投诉、商品的基本信息查询等程式化问题,在这些特定的场景中,特别是会被问到高度可预测的问题中,利用聊天机器人可以节省大量的人工成本。
在这里插入图片描述

4、文本分类

文本分类是指根据文档的内容或者属性,将大量的文档归到一个或多个类别的过程。这一技术的关键问题是如何构建一个分类函数或分类模型,并利用这一分类模型将未知文档映射到给定的类别空间。
按照其领域分类不同的期刊、新闻报道,甚至多文档分类也是可能的。文本分类的一个重要应用之处是垃圾电子邮件检测,除此之外,腾讯、新浪、搜狐之类的门户网站每天产生的信息分繁杂多,依靠人工整理分类是一项耗时巨大的工作且很不现实,此时文本分类技术的应用就显得极为重要。

5、搜索引擎

自然语言处理技术例如词义消歧、句法分析、指代消解等技术在搜索引擎中常常被使用。搜索引擎的职责不单单是帮助用户找到答案,还能帮助用户找到所求,连接人与实体世界的服务。搜索引擎最基本的模式是自动化地聚合足够多的内容,对之进行解析、处理和组织,响应用户的搜索请求找到对应结果返回。每一个环节,都需要用到自然语言处理。用百度举例,比如用户可以搜“天气”、“日历”、“机票”及“汇率”这样的模糊需求,会直接在搜索结果呈现结果。用户还可以搜索“范冰冰演过的电视剧”这样的复杂问题,百度都可以准确地回答。
一方面,有了自然语言处理技术才使得搜索引擎能够快速精准的返回用户的搜索结果,几乎所有的自然语言处理技术都在搜索引擎中有应用的影子;另一方面,搜索引擎(例如谷歌商业帝国和百度巨头)在商业上的成功,也促进了自然语言处理技术的进步。

6、推荐系统

第一个推荐系统是 1992 年 Goldberg 提出的 Tapestry,这是一个个性化邮件推荐系统,第一次提出了协同过滤的思想,利用用户的标注和行为信息对邮件进行重排序。推荐系统依赖数据、算法、人机交互等环节的相互配合,应用了数据挖掘技术、信息检索技术以及计算统计学等技术使用推荐系统的目的是联系用户和信息,帮助用户发现对自己有价值的信息,同时让信息能够展示在对它感兴趣的用户面前,精准推荐,用来解决信息过载和用户无明确需求的问题。
推荐系统在音乐电影的推荐、电子商务产品推荐、个性化阅读、社交网络好友推荐等场景发挥着重要的作用,美国 Netflix 2/3 的电影是因为被推荐而观看,Google news 利用推荐系统提升了 38%的点击率,Amazon 的销售中推荐占比高达 35%。

7、发展趋势

随着深度学习时代的来临,神经网络成为一种强大的机器学习工具,自然语言处理取得了许多突破性发展,情绪分析、自动问答、机器翻译等领域都飞速发展。
下图分别是 AMiner 计算出的自然语言处理近期热点和全球热点。通过对 1994-2017 年间自然语言处理领域有关论文的挖掘,总结出二十多年来,自然语言处理的领域关键词主要集中在计算机语言、神经网络、情感分析、机器翻译、词义消歧、信息提取、知识库和文本分析等领域。旨在基于历史的科研成果数据的基础上,对自然语言处理热度甚至发展趋势进行研究。图中,每个彩色分支表示一个关键词领域,其宽度表示该关键词的研究热度,各关键词在每一年份(纵轴)的位置是按照这一时间点上所有关键词的热度高低进行排序。
在这里插入图片描述
在这里插入图片描述
图 14 显示,情绪分析、词义消歧、知识库和计算机语言学将是最近的热点发展趋势。
图 15 显示词义消歧、词义理解、计算机语言学、信息检索和信息提取将是自然语言处理全球热点。

参考文献
[1] 中文信息处理发展报告 2016
[2] 李涓子,侯磊 知识图谱研究综述.[J]山西大学学报 2017
[3] 冯志伟.机器翻译研究.[M].北京:中国对外翻译出版社.2004
[4] 冯志伟.自然语言处理的形式模型[M].北京:中国科学技术大学出版社 2010
[5] 吴军,数学之美[M].北京:人民邮电出版社 2012
[6] 2006-2020 年国家信息化发展战略[Z] 中共中央办公厅、国务院办公厅 2006
[7] 刘奕群,马少平,洪涛等 搜索引擎技术基础[M] 北京:清华大学出版社 2010
[8] 韩家炜等,数据挖掘:概念与技术[M] 北京:机械工业出版社 2012

猜你喜欢

转载自blog.csdn.net/u011344545/article/details/89574915