论文:Contextualize, Show and Tell: A Neural Visual Storyteller arxiv:1806.00738
模型:
基于NIC模型,encoder增加LSTM网络结构,decoder采用独立的LSTM为每张图片产生caption
encoder的LSTM用于生成各图片相联系的上下文向量Z
上下文向量Z初始化各LSTM解码器
将各个图片的image-embedding产生的向量分别输入decoder独立的LSTM,并生成描述
结果示例:产生有上下文关系的caption