ICLR2019论文选读 - 代码天地

ICLR2019论文选读

其他 2019-05-14 19:58:03 阅读次数: 0

Supervised Policy Update for Deep Reinforcement Learning

Supervised Policy Update (SPU);
在非参数化近端策略空间中制定并解决约束优化问题;
监督回归，将最优的非参数化策略转换为参数化策略，从中采样新样本;
适用于离散和连续动作空间，并且可以处理非参数化优化问题的各种邻近约束;
以自然政策梯度和信任区域政策优化（NPG / TRPO）问题和近端政策优化（PPO）问题的解决为例
效率方面:SPU在Mujoco模拟机器人任务中优于TRPO，在Atari视频游戏任务中优于PPO.

Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

进化策略（ES）可以被认为是基于梯度的算法，因为它通过类似于梯度的有限差分近似的操作来执行随机梯度下降.
基于非梯度的进化算法是否可以在DNN尺度上工作?
使用简单，无梯度，基于种群的遗传算法（GA）来演化DNN的权重，并且它在硬的深RL问题上表现良好，包括Atari和人形运动。
Deep GA成功地发展了具有超过四百万个自由参数的网络, 迄今为止使用传统进化算法的最大的神经网络。
扩展了我们对GA运行规模的认识
在某些情况下，遵循梯度并不是优化性能的最佳选择
提供多种神经进化技术提高性能
DNN与新奇搜索相结合,可以解决奖励最大化算法的高维失败问题.
Deep GA比ES，A3C和DQN更快

ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS

在NLP的自然语言中,较小的单元（例如，短语）嵌套在较大的单元（例如，子句）中
当一个更大的单元结束时，嵌套在其中的所有较小的组成部分也必须被关闭.
标准LSTM架构没有明确偏向建模成分的层次结构, 通过对神经元进行排序来添加这样的归纳偏差.
一个输入和遗忘门的向量确保当给定神经元被更新时，在序列中跟随它的所有神经元也被更新.
新型recurrent架构，有序神经元LSTM（ON-LSTM），在语言建模，无监督解析，有针对性的句法评估和逻辑推理取得优秀效果.

猜你喜欢

转载自www.cnblogs.com/muhanxiaoquan/p/10864076.html

ICLR2019论文选读

(ICLR2019)论文阅读-使用深度增强学习框架的基于场景先验知识的视觉语义导航

论文选读：Comparing Recommendations Made by Online Systems and Friends

WWW17健康计算论文选读

论文选读：水声测距数学模型研究

【ICLR2019】基于模型的深度强化学习算法框架，具有理论保证

论文选读二：Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Veriﬁcation

ICLR2019 | 表示形式语言：比较有限自动机和循环神经网络

ICLR 2019 论文排名列表

ICLR 2019高分论文抢先看，谁是第一？

[论文笔记][ICLR-2019] Slimmable Neural Networks

ICLR 2019最佳论文出炉：微软、MILA、MIT获奖

ICLR 2019论文解读：量化神经网络

2019-ICLR-DARTS: Differentiable Architecture Search-论文阅读

ICLR 2019论文投稿近1600篇，强化学习最热门

ICLR 2019提交截止，近1600篇论文已全部上线

ICLR 2019最佳论文揭晓！NLP深度学习、神经网络压缩夺魁 | 技术头条

ICLR 2019最佳论文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Uber AI 研究院深度解构 ICLR 2019 最佳论文「彩票假设」！

【转载】 Uber AI 研究院深度解构 ICLR 2019 最佳论文「彩票假设」！

zz先睹为快:神经网络顶会ICLR 2019论文热点分析

那些没出现在近几年顶会NeurIPS 2019 与 ICLR 2020上的重要论文

How Powerful are Graph Neural Networks？ GIN 图同构网络 ICLR 2019 论文详解

ICLR 2019评审意见上线：论文得分中位数连年下滑，最高分论文出炉

高级农经师论文选题

论文选题研究综述怎么写

求推荐民法论文选题?

ICLR 2020 九篇满分论文！！！

ICLR2018 GNN GAT论文解读

毕业论文选题之开题报告

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)