文本自动生成研究进展与趋势之意义到文本的生成

 

意义到文本的生成

1 国际研究现状

不同于文本到文本的生成,意义到文本的生成这一任务的输入在学界并没有达成一致,其根本在于不论是哲学家还是语言学家对何为自然语言的语义都未能形成较为一致的定义。

在计算语言学领域,研究人员普遍遵循的语义研究原则建立在“真值条件(Truth Condition)” 的基础上,认为寻找到了能够使自然语言语句成真的条件,即是在某种程度上刻画了自然语言的语义。在真值条件假设基础上,学者普遍采用逻辑的方法来对语义进行表征,并分别从模型论(Model Theory)和证明论(Proof Theory)两个角度来展开研究,很多学者也常常称这类型的语义为逻辑语义。目前已有的意义到文本的生成研究,普遍假设使用逻辑语义表征——以逻辑表达式为代表——作为输入,而以自然语言语句作为输出,本文也围绕这些研究展开介绍。图 3.1 给出了一个基于类型 λ 演算进行语义表征的实例,在该例子中,问题的输入是一个 λ 表达式,而输出是一个英语句子。

      意义到文本的生成和组合语义分析(Compositional Semantic Parsing)密切相关,语义分析旨在对线性的词序列进行自动句法语义解析并得到其真值条件。因为在分析过程中遵循了弗雷格所提之组合原则(Principle of Compositionality),因而称为组合语义分析,以与分布式语义(Distributional Semantics)相区别。组合语义分析是自然语言处理的一项核心技术,是迈向深度语义理解的一座重要桥梁,在多个自然语言处理核心任务中有着潜在应用,如智能问答、机器翻译等。从问题自身的定义来看,意义到文本的生成与组合语义分析是一对互逆的自然语言处理任务。在当前的国际研究中,仅专注于意义到文本的生成这一任务的学者并不多,部分以句法语义分析研究为主的学者会兼顾这方面的研究。

1.1 基于深层语法的文本生成

       在早期的自然语言处理研究中,计算语言学发挥了很大的作用,计算语言学家从形式化、可计算的角度对自然语言进行建模,提出一系列的旨在解释语言运作机理的句法语义模型,并根据这些模型构建自然语言处理系统。相关研究在上个世纪八九十年代取得了丰硕的研究成果,一系列兼具语言本体解释力和可计算性的语法范式(Grammar Formalism)被提出,如组合范畴语法(Combinatory Categorial Grammar;简称 CCG)[59]和中心语驱动的短语结构语法(Head-driven Phrase-Structure Grammar;简称 HPSG)[60]等。不同于目前句法分析所主要使用的上下文无关文法(Context-Free Grammar;简称 CFG),上述语法范式具有超越上下文无关的表达能力,其语法推导过程往往更复杂,蕴含更多的信息,而这些信息可以用来做更透明的语义分析,简单而言,这些深层语法范式能够更好地支持句法语义同步的语言分析。在深层语法的支撑下,通过句法语义的协同推导可以获取自然语言的组合语义;而当以语义表征作为输入,通过其逆过程可以完成意义到文本的生成。

        Shieber [61]提出了一个统一的框架用于进行句法语义分析与生成。在这一框架中,Shieber 将语言处理统一理解为逻辑推演(Deduction)过程,其差别在于推演的始点——公理——与推演的终点——目标——不同。在这一视角下,传统的句法分析(Parsing)技术可以移植到文本生成上来,如线图分析法(Chart Parsing)技术可以转化为线图生成(Chart Generation)技术[62]。Shieber 后续又同其他学者合作,将推演的思想细化,利用合一语法来表达句法语义接口(Syntax-Semantics Interface),提出了语义中心驱动的生成[63]。

       深层语法复杂度较高,如何构造对错综复杂的语言现象具有高覆盖度(Broad Coverage)的语法规则本身是一个极大的难题。以上研究主要是对原型算法进行讨论,而因为真实可用的大型深层语法当时没有得到很好的开发,以上研究并没有呈现极具代表性意义的经验结果。经过十余年的漫长开发,研究人员在 HPSG 理论的基础上开发了英语资源语法(English Resource Grammar;简称 ERG)[10] [64],它是一个比较成功的具有较高覆盖率的深层语法规则系统,而围绕的 ERG 所展开的文本生成研究也取得了有益的进展。Carroll 和 Oepen [65]基于ERG 和真实测试数据重新讨论了基于线图的生成技术,给出了极具参考意义的经验评估;另外,他们也提出了两项新的技术来改进基于合一语法的可行解紧致表示(Compact Representation)及其相关解码算法——Selective Unpacking,尤其后者,有效地利用了判别式学习模型来改进文本生成过程中所遇到的歧义消解。

       组合范畴语法是一个广受自然语言处理领域学者关注的语法范式,其设计遵循了类型透明(Type Transparency)的原则,具有精简的语法语义接口,常常被语义分析[66]和文本生成[67]模型所采用。White 和 Baldridge [67]讨论了如何将线图生成法与组合范畴语法结合,并开发了开源的基于组合范畴语法的句子实现(Realization)工具——OpenCCG[11]。White 又同其他学者联合提出了一些进一步改进文本生成的算法[68][69][70]。

1.2 基于同步文法的文本生成

       在过去的二十年间,统计句法分析与统计机器翻译是公认的两个取得长足进步的自然语言处理任务。除了从成熟的统计句法分析中借鉴成功经验——如判别式消歧——之外,不少学者也尝试复用成功的机器翻译模型来完成文本生成。机器翻译的目标是将某种自然语言语句翻译成另外一种自然语言的语句,并尽量保持意义不变;而文本生成则可以视为将某种形式语言语句翻译成一种自然语言语句,二者具有极强的可比性。

       Chiang [71]提出了层级基于短语的翻译模型(Hierarchical Phrase-based Model),其核心是利用同步上下文无关文法(Synchronous Contex-Free Grammar)来协同源语言语句的解析和目标语言语句的生成。目前同步文法也已经被借鉴到文本生成的研究中[72][58]。Wong 与Mooney [72]两位作者讨论了两种形式语言用于表征意义:第一种是用于指挥机器人动作的形式语言,第二种是一种无变量的数据库检索语言;而 Lu 与 Ng [58] 则针对表达能力极强的类型 λ 表达式(Typed λ-expression)展开研究。两项研究的共同点是构建形式语言的基于树的结构,在将相关结构与待生成的自然语言的树结构建立一致性对应,从而完成文本生成任务;另一个共同点则是广泛地使用了现有的机器翻译技术(包括开源软件等)来进行文法抽取、解码等。

2 国内研究现状

      国内语言学界与计算语言学界针对自然语言语义的形式化研究较少,针对汉语进行全方面组合语义刻画的研究目前尚属空白。另一方面,从事自然语言处理的研究人员也较少涉猎深层语言结构处理问题,而对意义到文本的生成研究则更是鲜有,很少能见到相关学术成果发表在重要学术会议和期刊上。

3 发展趋势与展望

       随着深层自然语言理解的发展,研究者将越来越多的目光投向了意义到文本的生成这一自然语言生成核心任务上。意义到文本的生成这一任务随着意义表征体系的不同问题的复杂度也会随之变化,传统的基于深层语法分析的生成方法面临的解码效率差、语法鲁棒性不够等问题仍需要更好的技术解决方案。近些年来,有零星的一些工作尝试将较为成熟的组合优化技术应用到在句法分析和机器翻译,如拉格朗日松弛[73][74],尝试去求解一些所涉及到的NP 难问题。应对意义到文本的生成这一复杂度高的问题,我们也可以尝试应用相关技术。而针对深层语法鲁棒性不够的问题,基于数据驱动的语法近似(Grammar Approximation)[75] 取得了不错的结果,结果显示低阶语法近似能够有效改进深层语法分析的鲁棒性,如何应用相关思想来解决文本生成中所遇到的问题也是一个非常值得研究的方向。

       而就针对汉语的文本生成研究来说,需要国内外学界做出更大的努力。首先,在语言本体分析方面,需要学者们建立相关的语义表征体系及针对汉语的特殊语言现象的分析,以支持汉语的深层处理。其次,在文本生成算法方面,也需要我们投入更多的科研精力设计适合汉语自动生成的模型算法等。

猜你喜欢

转载自blog.csdn.net/jinhao_2008/article/details/115947911
今日推荐