深度学习之image-caption(三)storyteller

论文:Contextualize, Show and Tell: A Neural Visual Storyteller      arxiv:1806.00738

模型:

基于NIC模型,encoder增加LSTM网络结构,decoder采用独立的LSTM为每张图片产生caption

encoder的LSTM用于生成各图片相联系的上下文向量Z

上下文向量Z初始化各LSTM解码器

将各个图片的image-embedding产生的向量分别输入decoder独立的LSTM,并生成描述

结果示例:产生有上下文关系的caption

猜你喜欢

转载自blog.csdn.net/weixin_41694971/article/details/81363090
今日推荐