指数
その理由は、データをサンプリング
一般的なサンプリングアルゴリズム
サンプリング不均衡サンプル
0 2 原因データサンプル
実際には、我々は、我々のモデルが良くなるように、データの特性を学習する方がよいようにするために、多くの場合、データサンプリングし、訓練モデルの過程にあります。しかし、これは比較的浅い理解であるが、本質的には、サンプリングデータは、ランダムなイベントをシミュレートするために、与えられた確率分布に従って、ランダムな現象をシミュレートすることです。別の引数は、サンプル点少量の一般的な分布を近似することで、全体的な不確実性の分布を描きます。
私たちは実際の生活の中でされているので、データのほとんどは巨大であるので、全体的な分布はサンプル点の無限の数が含まれている場合があり、このモデルは、直接(少なくとも今のところは)これらのデータの膨大な量をモデル化することはできませんが、またから効率にはお勧めできません。
したがって、一般に、我々は、一般的に全体的な分布を近似するサンプルのサブセットから引き出され、このサブセットは、「トレーニングセット」、およびモデルがトレーニングが完了した後、トレーニングセット上の損失関数を最小化することである訓練の目的と呼ばれ、それが必要です呼ばれる別の評価モデルのデータセット、「テストセット。」
そのようなサンプルの複数のリサンプリングなどのいくつかの高度な使用サンプルは、(クラシック、情報も同じような状況のために予約することができる標的サンプルモデルトレーニングの分布に適合させるために変更して学習、統計的偏差法を推定しますそのような不均衡の問題に対処するようにサンプルアプリケーション)。
0 3
一般的なサンプリングアルゴリズム
すでにサンプリングされた理由は上記で説明し、今のは、アルゴリズムのサンプリングのいくつかを見てみましょう:
0 1
逆サンプリング変換
変換関係はランダム変数xおよびuが存在する場合、時には直接サンプリングの悪い分布の一部、変換方法は、関数とすることができる:U =φ次のように(x)は、確率密度関数は、次のとおりです。
P(U)|φ '(x)は、| = P(X)
したがって、ターゲット分布p(x)は、良好なサンプルxにおいて、変換は、U =φを構成することができる場合(X)、uは比較的容易uでサンプリングすることができるP(U)分布から変換されたサンプリングするようにXは、その後、間接逆関数によって得られます。高次元空間は、ヤコビアン行列式に対応する確率変数、φ「(x)がある場合。
変換関係φ(・)は(逆サンプリングを変換)、我々は逆サンプリング変換呼ん次いで、Xの累積分布関数である場合また、我々は、目標の確率密度関数をpの分布(x)をサンプリングすることを前提としてい累積分布関数は次のようになります。
逆変換プロセスのサンプリング方法:
1. UIは一様分布U(0,1)から乱数を生成します
2.逆関数を計算し、間接的にXに
しかし、ないターゲット分布の累積分布関数の逆関数のすべてすべて解決される(あるいは計算しやすい)ことができ、この時間は、逆変換のサンプリング方法はとして有用ではない、サンプリング(拒絶サンプリング)と重点サンプリングの度(重要性を検討することを拒否してサンプリング)。
0 2 拒絶サンプル(拒否サンプリング)
:任意のxに対して有するように拒否も(サンプリングを許可する)受け入れサンプリングと呼ばれるサンプル、ターゲット分布P(x)は、参照サンプル分布Q(X)を選択することが容易であり、
次のようにサンプリング・プロセスは、次のとおりです。
1)ランダムサンプルxiの基準分布q(X)から
一様分布U(0,1)から2)ランダムUI
3)場合、サンプルXIを受け入れる、または拒否する、新世代の要件を満たすために、サンプルサイズまでステップ1-3を繰り返します。
実際には、キーは、適切な封筒の機能を選択することが、当社の目標のためのサンプルの分布p(X)を拒否された以下に示すように、正規分布の機能を:
、「きつい」、エンベロープの機能を知ることができる近い、の大きさのサンプル採取に1に近いほど、より受容、サブサンプリングなど高効率。
離れ呼拒否適応サンプリング(適応除去サンプリング)が存在する、上記を形成する、ターゲット・プロファイルは、以下に示すような線形関数セグメントは、包絡関数を実行し、凹面対数関数です。
0 3
重点サンプリング(重点サンプリング)
还有一种采样方法,是计算函数f(x)在目标分布p(x)上的积分(函数期望),即:
我们先找一个比较容易抽样的参考分布q(x),并令则存在:
这里的w(x)我们可以理解为权重,我们就可以从参考分布q(x)中抽取N个样本xi,并且利用如下公式来估计E[f]:
下图就是重要性采样的示意图:
0 4 马尔科夫蒙特卡洛采样法
在高维空间中,拒绝采样和重要性采样很难寻找到合适参考分布,而且采样的效率是很低的,这个时候是可以考虑一下马尔科夫蒙特卡洛(Markov Chain Monte Carlo,MCMC)采样法。
可能有一些同学对这个名词还是比较陌生,那么先来讲解一下MCMC。
1. 主要思想
MCMC采样法主要包括两个MC,即Monte Carlo和Markov Chain。Monte Carlo是指基于采样的数值型近似求解方法,Markov Chain则是用于采样,MCMC的基本思想是:针对待采样的目标分布,构造一个马尔科夫链,使得该马尔科夫链的平稳分布就是目标分布,然后从任何一个初始状态出发,沿着马尔科夫链进行状态转移,最终得到的状态转移序列会收敛到目标分布,由此得到目标分布的一系列样本。
MCMC有着不同的马尔科夫链(Markov Chain),不同的链对应不用的采样法,常见的两种就是Metropolis-Hastings采样法和吉布斯采样法。
2. Metropolis-Hastings采样法
对于目标分布p(x),首先选择一个容易采样的参考条件分布,并令
然后根据如下过程进行采样:
1)随机选取一个初始样本
2)For t =1, 2, 3, ...:
{ 根据参考条件分布抽取一个样本
根据均匀分布U(0,1)产生随机数u
上面的图是Metropolis-Hastings的示意过程图,其中红线代表被拒绝的移动(维持旧样本),绿线代表被接受的移动(采纳新样本)。
3. 吉布斯采样法
吉布斯采样法是Metropolis-Hastings的一个特例,其核心是每次只对样本的一个维度进行采样和更新,对于目标分布p(x),其中是多维向量,按如下的过程进行采样:
同样的上述过程得到的样本序列会收敛到目标分布p(x),另外步骤2中对样本每个维度的抽样和更新操作,不是必须要按照下标顺序进行的,可以是随机进行的。
在拒绝采样中,如果在某一步得到的样本被拒绝,则该步不会产生新样本,需要重新进行采样,如在MCMC中,每一步都是会产生一个样本的,只是有的时候是保留旧样本罢了,而且MCMC是会在不断迭代过程中逐渐收敛到平稳分布的。
0 4
失衡样本的采样
我们在实际的建模中总会遇到很多失衡的数据集,比如点击率模型、营销模型、反欺诈模型等等,往往坏样本(or好样本)的占比才千分之几。虽然目前有些机器学习算法会解决失衡问题,比如XGBoost,但是很多时候还是需要我们去根据业务实际情况,对数据进行采样处理,主要还是分两种方式:
过采样(over-sampling):从占比较少的那一类样本中重复随机抽样,使得最终样本的目标类别不太失衡;
欠采样(under-sampling):从占比较多的那一类样本中随机抽取部分样本,使得最终样本的目标类别不太失衡;
科学家们根据上述两类,衍生出了很多方法,如下:
0 1 Over-Sampling类
1. Random Oversampling
也就是随机过采样,我们现在很少用它了,因为它是从样本少的类别中随机抽样,再将抽样得来的样本添加到数据集中,从而达到类别平衡的目的,这样子做很多时候会出现过拟合情况。
2. SMOTE
SMOTE,全称是Synthetic Minority Oversampling Technique,其思想就是在少数类的样本之间,进行插值操作来产生额外的样本。对于一个少数类样本,使用K-Mean法(K值需要人工确定)求出距离。距离最近的k个少数类样本,其中距离定义为样本之间n维特征空间的欧式距离,然后从k个样本点中随机抽取一个,使用下面的公式生成新的样本点:
其中,为选出的k近邻点,是一个随机数。下图就是一个SMOTE生成样本的例子,使用的是3-近邻,可以看出SMOTE生成的样本一般就在相连的直线上:
从图中可以看出Xnew就是我们新生成样本点,但是,SMOTE算法也是有缺点的:
(1)如果选取的少数类样本周围都是少数类样本,那么新合成的样本可能不会提供太多有用的信息;
(2)如果选取的少数类样本周围都是多数类样本,那么这可能会是噪声,也无法提升分类效果。
其实,最好的新样本最好是在两个类别的边界附近,这样子最有利于分类,所以下面介绍一个新算法——Border-Line SMOTE。
3. Border-Line SMOTE
这个算法一开始会先将少数类样本分成3类,分别DANGER、SAFE、NOISE,如下图:
而Border-line SMOTE算法只会在“DANGER”状态的少数类样本中去随机选择,然后利用SMOTE算法产生新样本。
4. ADASYN
ADASYN名为自适应合成抽样(Adaptive Synthetic Sampling),其最大的特点是采用某种机制自动决定每个少数类样本需要产生多少合成样本,而不是像SMOTE那样对每个少数类样本合成同数量的样本。ADASYN的缺点是易受离群点的影响,如果一个少数类样本的K近邻都是多数类样本,则其权重会变得相当大,进而会在其周围生成较多的样本。
0 2 Under-Sampling类
1.ランダムアンダーサンプリング
このように、これは情報の一部の損失を引き起こしていること、非常に明確であるように欠けている、クラスの大多数からいくつかのランダムなサンプルを削除することです、全体的に分類モデルが理想的ではない、比較的簡単です。
2. EasyEnsembleとBalanceCascade
両方が原因ランダムサンプリングに情報損失の問題に対処するための統合的な思考を使用しているため、これら2つのアルゴリズム一緒に理由があります。
1. EasyEnsemble:n個の部分に無作為に多数のクラス、データ・サンプルの少数の数に等しい各々は、これらの部分は、統合モデルの最終結果をトレーニングモデルデータをn個。
2. BalanceCascade:各ラウンドにおいて、教師付き方法昇圧と併せて使用されるアルゴリズムのこのタイプは、また、大部分のクラスから少数組み合わせるトレーニングモデルのサブセットを抽出し、このラウンドの次のラウンドが正しく分類され、ドロップされましたサンプル以降の基本学習者は、サンプルを誤って分類されている人たちにもっと注意を払うことができるように。
3. NearMiss
これは、プロトタイプは、本質的に、すなわち、サンプルは主にアンダーランダム情報の損失の問題を緩和するために、訓練のための最も代表的なサンプルのほとんどのクラスから選択され、選択NearMiss(プロトタイプ選択)方法です。3つのカテゴリに分類することができる規則に従って、サンプルを選択するために、いくつかのヒューリスティックルールを使用NearMiss。
NearMiss-1:最寄りの多数クラスサンプルを平均少数クラスのサンプルに最も近いKを選択
NearMiss-2:最も近い大部分クラスのサンプルを平均少数クラスサンプルにK最も遠いを選択
NearMiss-3:少数派の各サンプルについて、各サンプルは少数大半のクラスサンプルに囲まれていることを確認するために、K最新のサンプルクラス、目的を選択
NearMiss-1および計算オーバーヘッドNearMiss-2があるため、各マルチクラスサンプルのK点を計算する必要性、大きいです。さらに、NearMiss-1感受性外れ値、2番目の図に記載されているように、境界付近の多数クラスサンプルにおいて合理的に可能であるが選択されるが、何らかの少数の外れ値の右下に、近くほとんどのクラスのサンプルが選ばれました。コントラストNearMiss-2 NearMiss-3で、この問題を生じにくいです。