NLP?你老婆?拿来吧你

「这是我参与11月更文挑战的第7天,活动详情查看:2021最后一次更文挑战

一、领域概述

语言,是生物同类之间由于日常沟通需要而制定的具有统一编码解码标准的语音和字符系统。语言的魅力和独特性在于不同的语境会赋予不同的语义,需要相匹配的逻辑思维去理解并进行对话。若对话发生在没有相似思维和经历的两者身上,沟通变得不再顺畅,意思的表达变得不够清晰,大大增加了沟通的成本。随着交通和信息的发展导致的文化交融沟通已不会成为人与人之间的挑战。时至今日,计算机作为服务人类的机器,人类一直力图通过自然语言与计算机进行通信,人们更希望用跟人交流的方式与机器进行交流,而让机器理解语言成为了发展人工智能事业的前提条件。于是,自然语言处理诞生了。NLP(Natural Language Programming),顾名思义,该领域研究的是如何处理自然语言,简单来说就是机器要学习人表达的是什么意思,怎么理解,怎么模仿人说话回话,自然语言就是我们日常所使用的语音和字符系统,让机器学习的过程则是大量的训练过程。

自然语言处理是计算机与人工智能的重要领域。然而,自然语言的理解以及自然语言的生成都远不如想象的那么简单。我们用文字描述日常经历和思想,形成的文献除了被阅读,往往还需要对其进行更多的操作,例如把它翻译成其他语言,对内容进行摘要,对内容进行阅读理解从中查找某个问题的答案,或者查找这篇文献当中提到了哪些人事物以及它们的关系如何等等。虽然所有这些需求都可以通过人工阅读来解决,但浩如烟海的文献量导致人工文字处理的产能严重不足。上世纪40年代计算机被发明出来,用机器而非人力来处理信息成为了可能。早在1950年代,自然语言处理就成为了计算机科学的一个研究领域。不过直到1980年代,NLP系统还是以一套复杂的人工定制规则为基础的,计算机只是机械地执行这些规则或者做一些字符匹配、词频统计方面地简单计算。1980年代末期,机器学习地崛起为NLP引入了新的思路。处理文字时,刚性的人工规则日益地被柔性的以概率为基础的统计模型所替代。近些年来,随着深度学习的发展,多元神经网络也被引入了NLP领域,成为了解决问题的技术。

当前,NLP要处理的问题纷繁复杂,而且每一个问题都要结合相应场景和具体需求才好讨论。如何帮助各种不同的产品对用户的需求进行翻译与交互,如何分析搜索者在搜索框内的问题并匹配最相近的结果。如何听懂驾驶员复杂的行驶需求,并规划合理的路线,如何识别其他语言的语境语义,并匹配相似思维的中文翻译结果,如何理解小度音箱外的亿万次指令并进行迅速的理解以及反馈出先匹配的指令和对话,如何综合多种信息和需求并重新组织一片语言生成一篇新的文章。不过这些问题也有相当多的共性,于是我们就可根据这些共性将千奇百怪的问题分类成各个类型的任务,如文本分类、文本匹配、序列标注和阅读理解等。针对这些任务,NLP人员又探索出了各种各样的方法,这些方法又对应不同的技术。当智能语音交互已经变成国人新的生活习惯,当语言不再成为沟通的障碍,NLP不知不觉中已经融入了人们的生活,影响着人们的生活习惯,并推动着人工智能的发展。

二、主要问题

1.自然语言理解困难

自然语言理解是自然语言处理的重要部分,其效果的好坏直接影响着后续处理的正误。然而目前,在自然语言理解方面仍然存在困境。一方面,人理解一个句子并非仅凭语法,句子并不常常只是字面意思,同时还运用了大量的其他知识,包括生活常识和专门知识,知识实时更新,这些知识不可能完全储存在计算机里,尚无法做到灵活快速地调用各种知识理解语义。另一方面,一个自然语言理解系统只能基于有限的词汇、句型和特定的主题范围内,局限地分析一个孤立的句子,上下文内容、语境语气和发言者性格特征等因素对句意的影响多被忽略,自然语言的文法通常是模棱两可的,一词多义、词语省略、代词所指造成的语义问题也还缺乏系统的研究,人们标注的情感分词数据集标准不同,最终使其情感分析结果也达不到应有效果。

2.NLP在低资源状态下的运用困境

据联合国科教文组织统计,全球现存七千余种有记录语言中,超过四百种濒临灭绝,超过两百种处于接近濒危的状态。随着经济社会的发展,大量富有语言特色和文化内涵的少数民族语言正在迅速走向消亡。对原生态的语言面貌和文化信息的保存,对珍贵濒危语言文化遗产的留存是当今时代刻不容缓的目标与追求。然而,NLP大多只关注于英语、汉语等20余种世界热门语言的研究,对于少数民族语言、地区方言等低资源语料运用甚少。NLP训练一般需要大量数据标注集,而目前低资源型语言本身只有少量高质量的口语语料库,仅仅依靠这些单语数据,研究者无法获知其背后所传达的语义,将NLP应用从高资源型语言迁移到低资源型语言是当前一大难题,因此难以高效地开展相关学习与研究,更罔论留存这些少数民族濒危语言与背后地方文化的生命力。

3.虚假信息检测、追踪任务艰巨

虚假信息检测旨在通过人工智能技术来核实新闻报道,识别欺诈谣言与虚假信息,是目前NLP应用领域的热门话题。NLP虚假信息检测模型一般从开放式的在线社交媒体获取数据,进一步分析新闻内容、用户行为属性、传播方式,通过消息源的口碑人工地构造特征来评价新闻的可信度,政府网站、公认的权威媒体发布的新闻会默认为“真实”。然而,在虚假信息的早期检测阶段,即信息在新闻渠道上发布但尚未在社交媒体上传播时,不能依靠新闻的传播信息与用户行为来提取特征,因为它们需要经过一段时间的积累,由此就不能及时检测新出现的虚假新闻,可见人工构建特征存在考虑片面、浪费人力等诸多弊病。

在虚假信息产生后,网络舆论的跟踪对网络舆情的控制也格外重要,有效把控网络舆论的演化路径才能及时止损。目前NLP在基于话题模型或社会网络分析的技术演化路径研究已经有很多尝试,但都存在方法论上的不足。首先,许多研究只考虑了单一类型的文本信息,这可能导致不完全的技术路径映射。第二,每个时期的主题变化不能自动确定,这使得动态主题跟踪变得困难。第三,数据挖掘方法未能与可视化分析有效结合,影响了映射的效率和灵活性。根据主题的演变、情感和行为的变化有效地跟踪有价值的信息仍极具挑战。

三、应用与展望

NLP是人工智能领域的重要一环,NLP的进步将推动人工智能的发展。在过去的二十年里,NLP利用机器学习和深度学习的研究成果,在很多方面取得了长足的进步。未来十年,将是NLP发展的黄金时期。

未来,来自各个行业的文本大数据将会被更好地采集、加工、入库,来自搜索引擎、客服、商业智能、语音助手、翻译、教育、法律、金融等领域对NLP的需求会大幅度上升,对NLP质量也提出更高要求,文本数据和语音、图像数据的多模态融合会逐渐成为未来机器人的刚需。

因此,NLP研究将会向如下几个方面倾斜:

l 将知识和常识引入目前基于数据的学习系统中。

l 低资源的NLP任务的学习方法。

l 上下文建模、多轮语义理解。

l 基于语义分析、知识和常识的可解释NLP。

未来理想状态下的NLP系统架构可能是如下一个通用的自然语言处理框架:

(1)首先,对给定自然语言输入进行基本处理,包括分词、词性标注、依存分析、命名实体识别、意图/关系分类等。

(2)其次,使用编码器对输入进行编码将其转化为对应的语义表示。在这个过程中,一方面使用预训练好的词嵌入和实体嵌入对输入中的单词和实体名称进行信息扩充,另一方面,可使用预训练好的多个任务编码器对输入句子进行编码并通过迁移学习对不同编码进行融合。

(3)接下来,基于编码器输出的语义表示,使用任务相关的解码器生成对应的输出。还可引入多任务学习将其他相关任务作为辅助任务引入到对主任务的模型训练中来。如果需要多轮建模,则需要在数据库中记录当前轮的输出结果的重要信息,并应用于在后续的理解和推理中。

显然,为了实现这个理想的NLP框架需要做很多工作:

(1)需要构建大规模常识数据库并且清晰通过有意义的评测推动相关研究;

(2)研究更加有效的词、短语、句子的编码方式,以及构建更加强大的预训练的神经网络模型;

(3)推进无监督学习和半监督学习,需要考虑利用少量人类知识加强学习能力以及构建跨语言的embedding的新方法;

(4)需要更加有效地体现多任务学习和迁移学习在NLP任务中的效能,提升强化学习在NLP任务的作用,比如在自动客服的多轮对话中的应用;

(5)有效的篇章级建模或者多轮会话建模和多轮语义分析;

(6)要在系统设计中考虑用户的因素,实现用户建模和个性化的输出;

(7)构建综合利用推理系统、任务求解和对话系统,基于领域知识和常识知识的新一代的专家系统;

(8)利用语义分析和知识系统提升NLP系统的可解释能力。

未来,NLP将跟其他人工智能技术一道深刻地改变人类的生活。当然前途光明、道路曲折是亘古不变的道理,为了实现这个美好的未来,我们需要大胆创新、严谨求实、扎实进取,共同走进NLP下一个辉煌的十年。

猜你喜欢

转载自juejin.im/post/7033420645371215879