文本自动生成研究进展与趋势之图像到文本的生成

图像到文本的生成

1 国际研究现状

图像到文本的生成技术是指根据给定的图像生成描述该图像内容的自然语言文本，例如新闻图像附带的标题、医学图像附属的说明、儿童教育中常见的看图说话、以及用户在微博等互联网应用中上传图片时提供的说明文字。依据所生成自然语言文本的详细程度及长度的不同，这项任务又可以分为图像标题自动生成和图像说明自动生成。前者需要根据应用场景突出图像的核心内容，例如，为新闻图片生成的标题需要突出与图像内容密切关联的新闻事件，并在表达方式上求新以吸引读者的眼球；而后者通常需要详细描述图像的主要内容，例如,为有视力障碍的人提供简洁详实的图片说明，力求将图片的内容全面且有条理的陈述出来，而在具体表达方式上并没有具体的要求。

对于图像到文本的自动生成这一任务，人类可以毫不费力地理解图像内容，并按具体需求以自然语言句子的形式表述出来；然而对于计算机而言，则需要综合运用图像处理，计算机视觉和自然语言处理等几大领域的研究成果。作为一项标志性的交叉领域研究任务，图像到文本的自动生成吸引着来自不同领域研究者的关注。自2010年起，自然语言处理界的知名国际会议和期刊ACL、TACL和EMNLP中都有相关论文的发表；而自2013年起，模式识别与人工智能领域顶级国际期刊IEEE TPAMI以及计算机视觉领域顶级国际期刊IJCV也开始刊登相关工作的研究进展，至 2015 年，计算机视觉领域的知名国际会议 CVPR 中，更是有近10篇相关工作的论文发表，同时机器学习领域知名国际会议ICML中也有2篇相关论文发表。图像到文本的自动生成任务已被认为是人工智能领域中的一项基本挑战。

与一般的文本生成问题类似，解决图像到文本的自动生成问题也需要遵循三阶段流水线模型[76]，同时又需要根据图像内容理解的特点，做出一些调整：

在内容抽取方面，需要从图像中抽取物体、方位、动作、场景等概念，其中物体可以具体定位到图像中的某一具体区域，而其他概念则需要进行语义标引。这部分主要依靠模式识别和计算机视觉技术。
在句子内容选择方面，需要依据应用场景，选择最重要（如图像画面中最突出的，或与应用场景最相关的），且意义表述连贯的概念。这部分需要综合运用计算机视觉与自然语言处理技术。

最后，在句子实现部分，根据实际应用特点选取适当的表述方式将所选择的概念梳理为合乎语法习惯的自然语言句子。这部分主要依靠自然语言处理技术。

早期工作主要依照上述三阶段的流水线模式来实现。例如,在Yao等人的工作[88]中，图像被细致的分割并标注为物体及其组成部分，以及图像所表现的场景，并在此基础上选择与场景相关的描述模板，将物体识别的结果填充入模板得到图像的描述文字。而 Feng 与Lapata[89][90]则采用概率图模型对文本信息和图像信息同时建模，并从新闻图片所在的文字报道中挑选合适的关键词作为体现图像内容的关键词，并进而利用语言模型将所选取的内容关键词、及必要的功能词汇链接为基本合乎语法规则的图像标题。还有一些工作[91] [92][93] [94][95]则依靠计算机视觉领域现有的物体识别技术从图像中抽取物体（包括人物、动物、花草、车、桌子等常见的物体类型），并对其定位以获得物体之间的上下位关系，进而依赖概率图模型和语言模型选取适当的描述顺序将这些物体概念、介词短语块串联成完整的句子。Hodosh等人[96]则利用基于核函数的典型关联分析（Kernel Canonical Correlation Analysis，KCCA）来寻找文本与图像之间的关联，并依据图像信息对候选句子排序，从而获得最佳描述句子。值得说明的是，Hodosh等人的工作[96]和Feng与Lapata的工作[90][91]均没有依靠现有的物体识别技术。

随着深度学习方法在模式识别、计算机视觉及自然语言处理领域的广泛应用，基于海量数据的大规模图像分类、语义标注技术得到了快速发展；同时，统计机器翻译等与自然语言生成相关的技术也有了显著的提高。这也催生了将图像语义标注及自然语言句子生成进行联合建模的一系列工作，一方面在图像端采用多层深度卷积神经网络（Deep Convolution Neural Network，DCNN）对图像中的物体概念进行建模，另一方面在文本端采用循环神经网络（Recurrent Neural Network，RNN）或递归神经网络（Recursive Neural Network）对自然语言句子的生成过程进行建模[97]。传统图像语义标注工作主要关注具体某个物体的识别以及物体之间的相对位置关系，而对动作等抽象概念的关注较少。Socher 等人 [98] 提出利用递归神经网络对句子建模，并利用句法解析树突出对于动作（动词）的建模，进而将图像端与文本端进行联合优化，较好的刻画了物体与动作之间的关系。为了将两种不同模态的数据统一在一个框架下，Chen与Zitnick[99]将文本信息与图像信息融合在同一个循环神经网络中，利用图像信息作为记忆模块，从而指导文本句子的生成，同时又借助于一个重构图像信息层，实现了图像到文本、文本到图像的双方向表示。而Mao等人[100]则通过DCNN得到的图像信息与文本信息融合到同一个循环神经网络（m-RNN）中，将图像信息融入到了自然语言句子生成的序列过程中，取得了不错的结果。类似的想法也被 Donahue 等人[101]应用于动作识别和视频描述生成过程中。但在m-RNN的句子生成过程中，在图像端并没有显著的约束，例如在下图中，当生成单词“man”的时候，并没有与图像信息中的任务标注发生直接或间接的关联。

谷歌和加拿大蒙特利尔大学和多伦多大学的研究人员则分别借鉴了统计机器翻译领域的最新研究进展来推进图像到文本自动生成的联合建模[102] [103]。前者利用深层卷积神经网络DCNN 对图像建模，将图像信息“编码”（encoding）后，直接由另一个与之相连接的 LSTM 神经网络（Long-Short Term Memory Network，LSTM）“解码”(decoding)成自然语言句子，无需进行图像-词对齐、调序等传统模型的子步骤。而后者则在基于神经网络的机器翻译框架下，提出利用计算机视觉领域中的“注意”(Attention)机制来促进词语和图像块之间的对齐，从而在句子生成过程中，模拟人视觉

此外，微软的研究人员[104]利用卷积神经网络 CNN 和多示例学习（Multiple Instance Learning，MIL）对图像建模，并利用判别式语言模型生成候选句子，并采用统计机器翻译研究中经典的最小误差率训练(Minimum Error Rate Training，MERT)来发掘文本和图像层面的特征对候选句子进行排序。

虽然图像到文本的生成技术还处在探索阶段，距离实际产业应用还有一定的距离，但工业界已经开始注意到这一技术的理论研究价值和潜在应用前景，积极与学术界合作拓展研究方向。在 2015 年的计算机视觉知名国际会议 CVPR 2015 上举办的 LSUN Challenge（Large-scale Scene Understanding）挑战活动中也进行了图像标题自动生成的评测任务，最终谷歌公司[102]和微软研究院[104]取得了总成绩并列第一名，蒙特利尔-多伦多联队[103]和另一只微软研究院队伍[105]总成绩并列第三名，加州伯克利分校 [101]获得第五名。

2国内研究现状

国内学术界对图像到文本的生成技术研究开展较晚，大部分科研单位专注于跨媒体数据的语义标注和检索等任务上，只有人大、清华、北大、北航和中科院等科研单位开展了相关研究，如人民大学与腾讯合作在 2015 年欧盟组织的 ImageCLEF 评测中，在图像句子生成（Image Sentence Generation）任务中取得了第一名。

在工业界方面，百度和腾讯等科研机构也依靠自身在跨媒体语义标注、分类和检索等方面的研究优势，逐步开展相关方向的研究工作，如百度与UCLA合作的m-RNN系统在CVPR 2015 LSUN评测的图像标题自动生成任务中也取得了不错的成绩。

3 发展趋势与展望

从图像到文本的生成技术需要集成模式识别与机器学习、计算机视觉、自然语言处理，甚至认知科学领域的研究成果，具有极高的理论研究价值和实用前景。从一定程度上讲，这一技术同图像语义标注等任务一道，已成为各大顶尖科研机构在人工智能领域综合研究实力的较量方式，必将促进其快速发展。

而对于这一任务本身而言，更大的挑战仍然在于如何正确的抽取图像的内容，同时根据人类的语言习惯选择适当的表述方式将图像内容转换为自然语言句子。需要指出的是，目前的研究仍然聚焦在是否将图像中的物体概念抽取完全，是否选择了正确的词语，所生成的句子是否符合语法习惯等；可以预见在不久的将来，实际应用场景和上下文语境等约束将进一步推进相关技术的进步，必将广泛应用于新闻传播、在线教育、智能家居等多个领域。