什么是Natural Language Generation(NLG)?

1.NLG的定义

自然语言生成(Natural Language Generation, NLG)是NLP(自然语言处理)中的一项核心任务,主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。例如:人类对话智能音响,“现在几点了”,则需要先利用NLU(自然语言理解)技术判断用户的意图,理解用户的需求是什么。然后再利用NLG(自然语言生成)技术回复:“现在是早晨8点整”。

在这里插入图片描述

2.NLP的步骤

通常自然语言生成(NLG)有2种方式:

  • text to text:文本到语言的生成
  • data to text :数据到语言的生成

NLG的六个步骤:

  1. 内容确定 – Content Determination
    首先,NLG系统需要确定哪些信息应该包含在正在建构的文本中,哪些又不包含。通常数据中包含的信息比最终传达的信息要多。

  2. 文本结构 – Text Structuring
    确定需要传达的信息后,NLG系统需要合理的组织文本的顺序。例如:在报道一场篮球比赛时,会优先选择表达“比赛时间、地点、球队”等信息,其次再表达“比赛的概况”,最后表达“比赛的结局”。

  3. 句子聚合 – Sentence Aggregation
    不是每一条信息都需要一个独立的句子来表达,将多个信息合并到一个句子里表达可能会更加流畅,也更易于阅读。

  4. 语法化 – Lexicalisation
    确定好每一句内容后,就需要将这些语言组织成自然语言。这一步hi在各种信息之间加一些连接词,使得内容看起来是一个完整的句子。

  5. 参考表达式生成 – Referring Expression Generation|REG
    此步骤与语法化十分相似,都是选择一些单词和短语来构成一个完整的句子。但其和语法化的本质区别就在于“REG”需要识别出内容的领域,然后使用该领域的词汇。

  6. 语言实现 – Linguistic Realisation
    最后一步,当所有相关的单词和短语已确定后,需要将它们组成一个结构完整的句子。

3.NLG生成文本方式有哪些?

3.1.简单的数据合并

简单化形式是指将数据转化为文本(通过类似excel的函数)。以Excel中的信息合并为例,从信息源(例如MS Excel中的表格)中检索出来相关信息,并进行简单的合并输出。

3.2.模板化的NLG

模板化的NLG使用模板驱动模式来显示输出。例如,体育运动比赛的分板,基于输入的自定义关键信息,根据预定的业务规则集(如if / else循环语句)生成语言。

3.3.高级NLG

此形式的自然语言生成就与人类一样,其理解意图会考虑到文本的上下文环境,并将结果呈现给用户一种可以轻松阅读和理解的表述中,一般用于深度学习的encoder-decoder结构来实现。

4.NLG的应用有哪些?

通常典型的应用主要有:自动写新闻(AI编辑新闻)聊天机器人(Siri或智能音箱)自动生成报告

目前,NLG技术可以用低成本快速生成文本内容。比如法律判决书的摘要,原本需要人类通读全文在进行摘要总结,现在可以借助NLG技术自动生成摘要,省时省力。又比如自动生成相似问句,用NLG技术去扩充标注数据实现新业务领域的快速冷启动,从而降低AI训练和运营本身的成本。更进一步,“看图说话”的能力也是NLG技术的一大亮点应用。针对目标图片,NLG技术可以生成相关的图片描述,在电商领域的商品描述生成以及盲人辅助场景具有实际意义。

猜你喜欢

转载自blog.csdn.net/m0_38068876/article/details/131406554