An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea - 代码天地

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

其他 2018-08-19 02:11:37 阅读次数: 0

An End-to-End Approach to Natural Language Object Retrieval

via Context-Aware Deep Reinforcement Learning

这篇文章的核心就是使用使用强化学习的观点，在图像西红找出最合适的物体边框。强化学习的核心是在不同的状态下执行不同的动作，那么应该如何建模。作者将将图像看做state，然后初始化了8和action，这8个action分为两组，第一组执行上下左右四个动作改变候选框的位置，第二组动作就是想改变候选框的大小。其实这个方法在object detection里面也有应用，如下所示。

第二组动作改变图像的大小的具体方法：加入当前状态下的左上角和右下角的坐标是(x1,y1),(x2,y2),假若向下移动，则变为(x1+0.2,x2+0.2)(x2+0.2,y2+0.2),哈哈，就是改变一下位置嘛。

至于网络框架，首先使用ResNet提图像的特征，注意并没有resize到固定的维度，其实在有Ground truth的图像中，不用resize，因为也以使用ROI pooling加上Ground Truth的信息，可以提取出local和global的信息。网络最终输出动作值函数和值函数。另外考虑到动作之间的依赖性，将前50个回合中的动作也被考虑在内。

猜你喜欢

转载自blog.csdn.net/liyaohhh/article/details/78658325

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea

GC-Net阅读笔记（End-to-End Learning of Geometry and Context for Deep Stereo Regression）

An Integrated Approach for Keyphrase Generation via Exploring the Power of Retrieval and Extraction

Stanford:Natural Language Processing with Deep Learning

Deep Learning for Natural Language Processing in Python

DETR : End-to-End Object Detection with Transformers

DETR：end-to-end object detection with transformers

DERT：End-to-End Object Detection with Transformers

Towards End-to-End Lane Detection: an Instance Segmentation Approach

Deep Context-Aware Descreening and Rescreening of Halftone Images

TVM: End-to-End Optimization Stack for Deep Learning

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

Deep Speaker: an End-to-End Neural Speaker Embedding System

《A Generative Appearance Model for End-to-end Video Object Segmentation》

阅读心得：DETR:End-to-End Object Detection with Transformers

【扫盲】detr：End-to-End Object Detection with Transformers训练

detr论文解读【End-to-End Object Detection with Transformers】

DETR:End-to-End Object Detection with Transformers阅读笔记

【DETR 论文解读】End-to-End Object Detection with Transformer

End-to-End Object Detection with Transformers（DETR）论文阅读与理解

论文解读：End-to-End Object Detection with Transformers

【论文阅读】SQLNet: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE WITHOUT REINFORCEMENT LEARNING

论文笔记：Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval

《Towards End-to-End Lane Detection: an Instance Segmentation Approach》论文阅读之LaneNet + H-Net

文献阅读记录：Towards End-to-End Lane Detection: an Instance Segmentation Approach

论文阅读和分析：Watch, attend and parse An end-to-end neural network based approach to HMER

《Towards End-to-End Lane Detection: an Instance Segmentation Approach》论文阅读

【翻译】Knowledge-Aware Natural Language Understanding（摘要及目录）

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)