在统计学中，变量分为因变量，自变量，协变量，因变量被称为被解释变量，自变量和协变量都是解释变量，都会对因变量产生影响，这时候我们想要研究一个或几个变量对因变量的影响，那这些被研究的变量就被称为自变量，剩余的不在研究范围内但会对因变量产生影响的变量称为协变量，一般会采取一些技术加以控制。

要想解决环境因素的影响，就是想方设法使得训练环境与测试环境尽量匹配，这样才能满足机器学习的一个假设“数据要独立同分布”。

协变量偏移

$p(x,y) = p(x)\times p(y|x)$

在ML中，研究的是条件概率P(y|x)，y是因变量，x是自变量，这里有个隐含的条件就是x来自某一分布p(x)，如果p(x)变化了，P(y|x)也可能变的不同，所以协变量就是p(x)。

协变量偏移指的是训练集和测试集的p(x)不是同分布的，

比如训练集用自然界的猫做图像识别，测试集中却是卡通猫；

再比如训练集是10月10日之前用户对电影评分，测试集是10月10之后用户对电影的评分，随着时间的变化，其实用户对电影的喜好(协变量)是发生变化，比如1月份喜欢恐怖片，10月份就开始看偶像剧了（身边真实例子=-=），这就是协变量偏移。

标签偏移

标签偏移可以简单理解为测试时出现了训练时没有的标签。

协变量偏移和标签偏移可能同时发生。

概念偏移

标签本身的定义发生变化，比如软饮料，在美国的不同地域可能会有coke、pop、soda等不同表达，如果要构建一个翻译系统，P(y|x)会因地理位置不同而异。

好消息是概念偏移有缓慢变化的特点，可以根据此特点缓解概念偏移问题。

三循环神经网络进阶

3.1 循环神经网络的主要结构

GRU
LSTM
多层RNN（又名深度循环神经网络）
双向RNN

RNN结构解读一文中有以上结构的核心源码解读，看一遍源码就会对各个结构更加了解了~

3.2 问答时间

1 LSTM是如何缓解普通RNN中的梯度消失和梯度爆炸问题的？

gbl5555

发布了34 篇原创文章 · 获赞 20 · 访问量 6万+

私信关注

过拟合、欠拟合及其解决方案 & 梯度消失、梯度爆炸 & 循环神经网络进阶

一过拟合、欠拟合及其解决方案

1.1 欠拟合与过拟合

1.2 过拟合解决方案

1.3 欠拟合解决方案

二影响模型效果的因素

2.1 梯度消失&梯度爆炸

概念

梯度消失解决方法

梯度爆炸解决方法

2.2 环境因素

协变量偏移

标签偏移

概念偏移

三循环神经网络进阶

3.1 循环神经网络的主要结构

3.2 问答时间

猜你喜欢

过拟合、欠拟合及其解决方案 & 梯度消失、梯度爆炸 & 循环神经网络进阶

一过拟合、欠拟合及其解决方案

1.1 欠拟合与过拟合

1.2 过拟合解决方案

1.3 欠拟合解决方案

二 影响模型效果的因素

2.1 梯度消失&梯度爆炸

概念

梯度消失解决方法

梯度爆炸解决方法

2.2 环境因素

协变量偏移

标签偏移

概念偏移

三 循环神经网络进阶

3.1 循环神经网络的主要结构

3.2 问答时间

猜你喜欢

二影响模型效果的因素

三循环神经网络进阶