论文阅读 | Interpretable Neural Predictions with Differentiable Binary Variables - 代码天地

论文阅读 | Interpretable Neural Predictions with Differentiable Binary Variables

其他 2020-04-21 22:50:48 阅读次数: 0

论文地址：https://arxiv.org/abs/1905.08160

作者： Joost Bastings, Wilker Aziz, Ivan Titov

机构：University of Amsterdam

研究的问题：

同样是关注神经网络可解释性的一篇论文，主要是分类任务中的可解释性。主要方法是使用联合训练的两个神经网络，一个网络从文本中提取基本原理，另一个网络学习从基本原理中做出预测。基本原理就是对原文简明扼要的陈述。

研究方法：

Kumaraswamy分布：模型的关键在于Kumaraswamy分布，它是在（0,1)区间上一个两个参数的分布，使用表示，其中a，b>0。其图像如下：

上图中的虚线表示的是Kuma(0.5,0.5)的分布，它和beta分布比较接近。其公式如下：

当时，

作者这里对Kumaraswamy分布做了扩展，让它包括0和1.定义如下：

其中l<0,r>1

过程描述如下，首先在（0,1）之间采样得到一个数字，通过转化为一个Kumaraswamy变量，之后通过线性变化，最后在[0,1]这个闭区间内得到结果，简记为。

可以注意到，当t=1和t=1时，它是不可微的。不过对于两个点，被采样到的概率是0.

示例：情感分析

下面以情感分析任务为例来介绍，设x是一个句子，y是五类情感标签。模型包括：

其中的形状参数是由神经网络预测得到的。

首先指定一个架构来参数化潜在的selector，决定限制输入的哪些部分用于分类。

其中，emb表示embedding层，birnn是encoder。

之后使用采样的z来调整分类器的输入。

然后，通过蒙特卡洛采样得到梯度的估计：

表示逐元素的从均分布到Kuma分布的转换。

实验结果：

评价：

主要方法可以概括为，提出了一种提取基本原理的方法，为了重参数化梯度估计、支持二元输出，引入了Kuma分布。

猜你喜欢

转载自www.cnblogs.com/bernieloveslife/p/12748483.html

论文阅读 | Interpretable Neural Predictions with Differentiable Binary Variables

【DMCP】2020-CVPR-DMCP Differentiable Markov Channel Pruning for Neural Networks-论文阅读

【阅读笔记】Differentiable plasticity: training plastic neural networks with backpropagation

《DMCP：Differentiable Markov Channel Pruning for Neural Networks》论文笔记

论文阅读：Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks

笔记：Interpretable Convolutional Neural Networks

Interpretable Convolutional Neural Networks研读

《DARTS: Differentiable Architecture Search》论文阅读笔记

Transformer Memory as a Differentiable Search Index论文阅读

科恩论文阅读：Semantic-Aware Neural Networks for Binary Code Similarity Detection

2019-ICLR-DARTS: Differentiable Architecture Search-论文阅读

【读论文】A Unified Approach to Interpreting Model Predictions

【阅读笔记】DARTS: Differentiable Architecture Search

《DARTS：Differentiable Architecture Search》论文笔记

Differentiable Scaffolding Tree for Molecule Optimization（论文解读）

论文阅读笔记——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习）

论文阅读笔记——DARTS：Differentiable Architecture Search可微分架构搜索（二）（论文翻译学习）

ICML 论文阅读(1) Understanding Black-box Predictions via Influence Functions

【论文阅读笔记】RETAIN: An Interpretable Predictive Model for ealthcare using Reverse Time Attention Mechani

Distilling the Knowledge in a Neural Network[论文阅读笔记]

论文阅读笔记：Distilling the Knowledge in Neural Network

【论文阅读】Sequence to Sequence Learning with Neural Network

MUNN：Mutation Analysis of neural networks论文阅读

【论文阅读】Sequence to Sequence Learning with Neural Networks

【论文阅读】A Neural Probabilistic Language Model

【论文阅读】Non-local Neural Networks

『论文阅读』：Convolutional Neural Networks for Sentence Classification

A Neural Probabilistic Language Model 论文阅读及实战

A Survey on Neural Architecture Search论文阅读

《Progressive Neural Architecture Search》论文阅读笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)