1 基礎知識のポイント

1.1 アンサンブル学習

アンサンブル学習は、機械学習の中心的な概念です。その主なアイデアは次のように要約されます。複数の弱学習器をトレーニングして強学習器の効果を達成することにより、組み合わせたパフォーマンスはどの弱学習器よりも優れています。機械学習のエラーは、次の 2 つのカテゴリに大別できます。1つは偏り誤差（bias error）：予測値と実際の値の差を指し、もう1つは分散誤差（variance error）：予測値の分散度を確率変数として指す、統合学習はこれらの問題を軽減することができます。複数の分類器の結果を組み合わせることで、特に一部の不安定な学習器のモデル予測の偏差を減らすことができるため、アンサンブル学習によって学習された学習器の安定性が高くなります。アンサンブル学習では、一般的な方法はバギングとブースティング、次にこれら 2 つの方法について簡単に説明します。

1.2 バギングとブースティング

バギングまたはブースティング手法を使用するには、基本学習器を選択する必要があります。たとえば、ツリーを分類することを選択すると、バギングとブースティングは一連のツリー学習器に結合され、統合された学習器になります. 次に、バギングとブースティングは、N 個の学習器を取得するためにどのようにトレーニングしますか?

初め：トレーニングデータの選択
毎回、元のトレーニングデータセットから N 個の新しいトレーニングデータセットが生成され、N 個の学習器が個別にトレーニングされます。新しいトレーニングデータセットを生成するたびに、バギングはランダムにサンプルを選択します。これは、新しいトレーニングセットに各サンプルが出現する確率が同じであることを意味し、ブースティングはサンプルの重みに従って選択するため、一部のサンプルは新しいトレーニングセットで選択される可能性が高くなります。
2番目：トレーニングプロセス
バギングとブースティングの主な違いは、トレーニングプロセスです。このうち、Bagging はトレーニングフェーズで並列化され、各トレーナーは独立しているのに対し、Boosting はシーケンスに基づいて各トレーナーを構築します.新しいトレーナーの確立は前のトレーナーに依存するため、独立していません.、比較チャートは次のとおりです。

ブースティングアルゴリズムでは、各分類器のトレーニングデータの選択は前の分類器の予測結果に依存するため、各トレーニングステップでサンプルの重みが再調整され、誤って予測されたデータは重みを増加させ、トレーニングのために次の分類子に入る確率が高くなります。、これらの硬いサンプルの識別に焦点を当てています。

三番目：予測プロセス
N 人の学習者をトレーニングした後、バギングとブースティングでは予測結果に違いがあります.バギング戦略では、最終結果は N 人の学習者の結果の平均であり、ブースティングの予測結果は重み付けされた合計であり、次のように表されます
$\text{バギング} = \frac{1}{N} \sum_{i=1}^N s_i$
$\text{ブースティング} = \sum_{i=1}^N w_is_i$
其中权重 $w_i$ 各分類子の予測のパフォーマンスに応じて割り当てられます。学習者の成績が良いほど、それに対応する重みが大きくなります。. ただし、Boosting が Bagging よりも優れている必要があるというわけではなく、特定のデータセットや学習者など、複数の要因に応じて検討する必要があります。単一の学習器のパフォーマンスが悪い場合、バギングで強力な学習器を取得することは困難ですが、Boosting 最適化戦略は複数の学習器の効果を強化することができます。反対に、すべての学習者が過剰適合している場合は、バギングが最良の選択であり、ブースティングは過適合を回避するのに役立ちません。。

1.3 適応ブースティング

Adaptive Boosting (AdaBoost) は Boosting 手法の 1 つで、Boosting の核となる考え方は、前のモデルのエラーから学習することです。とAdaBoost 学習方法は、主に誤分類されたサンプルの重みを増加させるため、次のモデルは誤分類されたサンプルの認識効果により注意を払います。. トレーニングの基本的な手順は次のとおりです。

ツリーモデルをトレーニングする
このツリーモデルエラーのエラー率 $e$
エラー率に基づいて、この決定木の重みを計算します。learning_rate * log((1-e) /e) であるため、エラー率 e が大きいほど、重みは小さくなります
各サンプルの重みを更新します。モデルによってペアになっているサンプルの場合、重みは変更されません。誤分類されたサンプルの場合、新しい重みは次のとおりです。old_weight * np.exp(この木の重み)、更新後、サンプルの重みが大きくなります、次のステップでは、そのような誤分類されたサンプルの識別が強化されます
トレーニングされたツリーが最大値に達するまで、上記の手順を繰り返します
最終的な予測を行う: 加重投票メカニズムを通じて各候補セットのサンプルを予測します

1.3 勾配ブースティング

Gradient Boosting も Boosting 手法の 1 つですが、前述したように、Boosting モデルの核心は過去の過ちから学ぶことです。そして、勾配ブースティングの各反復は、前のステップの残差 (出力値に対するターゲット損失関数の偏導関数) に直接適合するため、現在の t ステップの予測結果は、ターゲット損失の負の勾配方向に等しくなります。を前のステップ t-1 の予測値に関数化するため、各反復 ( $f_t (x_i) = f_{t-1} (x_i)-\frac{\partial L(y_i,f_{t-1}(x_i))}{\partial f_{t-1}(x_i)}$ ) 目標損失損失を継続的に削減する、アルゴリズムの流れは次のとおりです。

$f_0(x) = \text{argmin}_\gamma \sum_{i=1}^NL (y_i , \ガンマ)$

$\text{for} \text{ } t=1 \text{} \text{to} \text{ }T:$

$\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }(a) 计算负梯度: \hat{y}_i =- \frac{\partial L (y_i,f_{t-1}(x_i))}{\partial f_{t-1}(x_i)}, i=1,2,...N$

$\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }( b) 二乗誤差を最小化することにより、\hat{y}_i を基本学習器 h_t(x) に適合させます。$

$\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ } \text{ }\text{ }\text{ } w_t = \text{argmin}_w \sum_{i=1}^NL(\hat{y}_i - h_t(x_i; w)]^2$

$を決定します\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }(c) Linesearch を使用しますL が最小になるように、ステップサイズ \rho_m を決定します。$ 、

$\text{ }\text{ }\text{ }\text{ }\text{ }\text { }\text{ }\text{ }\text{ }\text{ } \rho_t = \text{argmin}_{\rho} \sum_{i=1}^NL(y_i, f_{t-1}( x_i) + \rho h_t(x_i;w_t))$

$\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ } (d) f_t(x) = f_{t-1}(x)+\rho_th_t(x;w_t)$

$3. f_M(x) を出力$

2 GBDT アルゴリズム

2.1 原則

GBDT (Gradient Boosting Decision Tree) は勾配ブースティング木です. 次に、アルゴリズムの詳細を詳細に推測します.

1) GBDT 予測結果値式
K 個の木があるとします。k番目の木の予測値 $f_k(x)を使用します。$ は、サンプル $x_i$ 、最終的な予測値は:
$\hat{y_i}=\sum_{k=1}^Kf_k(x_i)$

2) 目標損失関数を定義する
損失関数は、モデルによって予測された値と実際のラベル値との差を測定するために使用されます. 同時に、モデルが複雑になりすぎないように、モデルの重みパラメーターを罰するために、通常、正則化項目が追加されます. ただし, , 最適化する重みパラメータがないため、ツリーモデルアルゴリズムに基づいています。したがって、モデルの複雑さにペナルティを課すには、他の方法が必要です。通常、ツリーモデルの場合、通常は正則化項目は、ツリーの深さ、ツリーの葉ノードの数、または葉ノードの重み値の L2 ノルムなどから因数分解されます。. 一般に、ツリーのリーフノードが多いほど、ツリーが深くなるほどオーバーフィットしやすくなり、リーフノードの重みスコアが高くなると、オーバーフィッティングにつながる可能性があります。これらの問題を組み合わせて、ツリーモデルの場合、ターゲット損失関数を次のように定義できます。

$\sum_{i=1}^nl(y_i, \hat{y_i}) + \sum_{k= 1}^K\オメガ(f_k)$
其中 $l(y_i, \hat{y}_i)$ モデル予測と実際のラベルの差 $\Omega(f_k)$ は正則化項であり、モデルの複雑さを測定し、モデルのオーバーフィッティングを防ぎます。私たちの目標は、上記の目的損失関数を最小化することです。

3) 目標損失関数の変形
目的関数を使用して、モデルはどのように学習しますか? 訓練したいのはツリーベースの関数なので $f_t(x)$ は数値ベクトルではなく、勾配降下法では解決できません。したがって、最適解を見つけるには、追加トレーニング (ブースティング) と呼ばれる別の方法が必要です。
初期値が 0 であると仮定すると、追加のツリーごとに、予測結果値の反復形式は次のようになります。

$\hat{y_i}^{(0)} = 0$
$\hat{y_i}^{(1)} = f_1(x_i) = \hat{y_i}^{(0 )} + f_1(x_i)$
$\hat{y_i}^{(2)} = f_1(x_i) + f_2(x_i) ) = \hat{y_i}^{(1)} + f_2(x_i)$
…
$\hat{y_i}^{(t)} =\sum_{k=1}^tf_k (x_i) = \hat{y_i}^{(t-1)} + f_t(x_i)$

上記の式から、ステップ t での最終予測結果は、前の t-1 ステップのすべての結果と現在のツリーの結果の合計であることがわかります (ここでは、学習率係数を制御するために考慮しません)。各ツリーの重み) 値のスケーリング)。目的関数を次のように展開します。

$Obj^{(t)}=\sum_{i=1}^nl(y_i, \hat{y_i}^{(t)}) + \sum_{i=1}^t \Omega(f_i)$
$\text{ }\text{ }\text{ }\text{ }\text{ } \text{ }\text{ }\text{ }\text{ }\text{ }=\sum_{i=1}^nl(y_i, \hat{y_i}^{(t-1)} + f_t(x_i )) + \Omega(f_t) +const$

目標損失関数が平均二乗誤差であると仮定すると、変換は次のようになります。

$Obj^{(t)} = \sum_{i= 1}^n (y_i - (\hat{y_i}^{(t-1)} + f_t(x_i)))^2 + \Omega(f_t) + const$
$\text{ }\text{ } \text{ }\text{ }\text{ }= \sum_{i=1}^n[2(\hat{y_i}^{(t-1)} - y_i)f_t(x_i) + f_t(x_i) ^2] + \Omega(f_t) + const$

関数 $f_t(x_i)$ 与 $\hat{y_i}^{(t-1)}$ は関係ありません. 上記の目的関数の 2 番目のステップの変更では、式は個別の $\hat{y_i}^{(t-1)} を$ 項。以下は、テイラーの公式の原理に基づく GBDT 最適化のソリューションです。

4) テイラーの公式
テイラーの公式は、複雑な関数の性質を研究するためによく使用される近似法の 1 つであり、関数微分法の重要な応用内容でもあります。関数が特定の条件を満たす場合、テイラーの式は、関数を近似する多項式を構築するための係数として、特定の点での関数の微分値を使用できます。式の展開は次のとおりです
$f^{'}(x)\Delta x + \frac{1}{2}f^{''}(x)\Delta x^2$

5) 目的関数はテイラー展開で表される
次に目的関数をテイラー展開し、その解法は次のようになります。
$Obj^{(t)} = \sum_{i=1}^nl(y_i,\hat{y_i}^{(t-1)} + f_t(x_i)) + \Omega(f_t) +定数$
我们令:
$g_i = \partial_{\hat{y_i}^{(t-1)}}l (y_i, \hat{y}^{(t-1)})$
$h_i = \partial_{\hat{y_i}^{(t-1)}}^2l (y_i, \hat{y_i}^{(t-1)})$
其中 $g_i$ 和 $h_i$ 目的関数を表す $l(y_i, \hat{y_i}^{(t-1)})$ 対 $\hat{y}^{(t-1)}$ の 1 次導関数と 2 次導関数したがって、目的関数のテイラー展開式は
$Obj^{(t)} \approx \sum_{i=1}^n[l(y_i, \hat{y_i}^{(t-1)}) + g_if_t(x_i) + \frac { 1}{2}h_if^2_t(x_i)] + \Omega(f_t) + const$
ターゲット損失関数が平均二乗誤差であると見なされる場合、 $g_i$ 和 $h_i$ 计計算の結果：
$g_i = \partial_{\hat{y_i}^ {(t-1)}}(\hat{y_i}^{(t-1)}-y_i)^2=2(\hat{y_i}^{(t-1)}-y_i)$
$h_i = \partial_{\hat{y_i}^{(t-1)}}^2(\hat {y_i}^{(t-1)}-y_i)^2=2$
、目的関数を
$Obj^{(t)} \approx \sum_{i=1}^n[l(y_i, \hat{y_i}^{(t-1)}) + g_if_t(x_i) + \frac{ 1 }{2}h_if^2_t(x_i)] + \Omega(f_t) + const$
$\sum_{i=1} ^n[2(\hat{y_i}^{(t-1)}-y_i)f_t(x_i) + f_t(x_i)^2]+ \Omega(f_t) + const$
定数は目的関数の最適化に影響を与えないため、定数部分は削除され、次のようにさらに解決されます。 =
$\ sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if^2_t(x_i)] + \Omega(f_t)$
其中 $g_i$ 和 $h_i$ 目的関数を表す $l(y_i, \hat{y_i}^{(t-1)})$ 対 $\hat{y}^{(t-1)}$ の 1 次導関数と 2 次導関数

6) 正規化項 $\Omega(f_t)$
次に、目的関数の正則化項 $\Omega(f_t)$ はどのように表現するのですか? 最初に明確にする必要があるのは、正則化項の目的はモデルのオーバーフィッティングを防ぐことであるため、モデルが複雑になりすぎないようにする必要があるということです.ツリーモデル構造に基づいて、正則化式を定義できます.次のように: Ω ( ff ) = γ T + 1 2
$\Omega(f_f) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^Tw_j ^2$
ここで $T は$ 葉ノードの数を表し、 $w_j$ を示します $j$ リーフノードのスコアは、正則化式の式から、正則化項により、ツリーにリーフノードが多くなりすぎず、リーフノードの値が大きくなりすぎないことがわかります。以下に示すように：
ここに画像の説明を挿入

则 $\Omega$ の計算結果 $\gamma^3 + \frac{1}{2}\lambda(4+0.01+1)$ 、前のターゲット損失関数では、 $f_t(x)$ はモデル結果の予測スコアです。次に、設定したツリーモデル構造に対して:
$f_t(x) = w_{q(x)}$
其中 $\in \text{R}^T$ は T 次元のベクトルで、要素の各値は各リーフノードのスコアを表します。 $q (x)$ は、サンプル x のマッピング関数であり、ツリー構造の特定のリーフノードがマッピングされます。正則化項とツリーモデル構造表現を上記の目的関数に組み込むと、
$\approx \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if^2_t(x_i)] + \Omega(f_t)$
$=\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if^2_t(x_i)] + \gamma T + \frac{1}{2}\lambda \sum_{j=1}^Tw_j^2$
$\sum_{j=1}^T[(\sum_{i \ in I_j}g_i)w_j+\frac{1}{2}(\sum_{i \in I_j}h_i + \lambda)w_j^2] + \gamma T$

定義:
$G_j = \sum_{i \in I_j} g_i$
$H_j = \sum_{i \in I_j} h_i$
次に、上記の目的関数をさらに分解して取得します。
$\sum_{j=1}^T[(\sum_{i \in I_j}g_i)w_j+\frac{1}{2}(\sum_{i \in I_j}h_i + \lambda ) w_j^2] + \gamma T$
$=\sum_{j=1}^T[G_jw_j+\frac{1}{2}(H_j+\lambda )w_j^2]+\ガンマ T$
其中 $w_j$ 上記の目標損失関数を最小化するために最適化したい値、つまりツリー構造の葉ノードの値です。 wj $w_j$ 導関数を取り、結果を 0 に設定します：
$\sum_{j=1}^T[G_j+(H_j+\lambda)w_j]=0$
、次の値を取得できます:
$w_j^* = -\frac{G_j}{H_j+\lambda}$
wj $w_j^*$ $Obj^{(t)} = -\$ frac
$1}{2}\sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma T$

最終的なターゲット損失関数式を取得します。解決したいのは $g_iです$ 和 $h_i$ ，どこで $G_j$ および $H_j$ 葉ノード $j$ のすべてのサンプルの一次導関数 $g$ 分数と二次導関数 $h$ の分数の和. したがって、次の図に示すように、どのような種類の構造ツリーでも、サンプルが到着するリーフノードのターゲット損失関数値を計算できます。
ここに画像の説明を挿入

7) 木の最適分割構造の解き方
Obj を最小化するには、結合されたすべての分割ツリーを計算し、上記の式に従って各ツリーの目標損失値を計算し、最後に最小の損失値を持つツリー構造を選択する必要があります。これは可能ですか？すべてのツリー構造を網羅的に列挙すると、複雑さが高すぎるため、実現不可能です。では、ツリーの各レベルで必要ですか分割後の目標損失値が分割前の損失値よりも小さいかどうかに応じて、ノードを左ノードと右ノードに分割します、および分割する特徴点、分割しきい値に応じて、最大ゲインを選択し (ターゲット損失損失値は、新しく選択されたカットポイントの後に最も低くなります)、分割ゲインゲインは次のように計算されます (切断前の損失 - 切断後の損失)。切断):
$\frac{1}{2}[\frac{G_L^ 2}{H_L + \lambda} + \frac{G_R^2}{H_R - \lambda} - \frac{(G_L+G_R)^2}{H_L+H_R+\lambda}]-\ガンマ$
、葉ノードを分割するかどうかは、上記の式により、利益収入が 0 より大きい場合は、引き続き分割できます。切り方については、gg を使用できます $g$ と $h$ してソートし、左から右にスキャンして最適なカットポイントを選択します。

2.2 トレーニング

GBDT の原理に慣れたら、GBDT モデルがどのようにトレーニングされ、トレーニング後にどのようなモデル構造が得られるかを見てみましょう。

トレーニングステップ
平均二乗誤差損失関数を使用していると仮定すると、gbdt モデルのトレーニング手順は次のように要約されます。

最初のステップ (初期値の決定): 各サンプルの初期値モデル予測スコアは、すべてのサンプルの平均値です: $f_0(x_i)=\frac{1}{ n}\sum_{i=1}^n y_i$
2 番目のステップ (最初のツリーの構築): 各サンプルについて、前の予測結果に従って $\hat{y_i}^0=f_0(x_i)$ 値と対応するラベル値 $y_i$ 、前のステップでのモデルの予測値に対する目的関数を取得します一阶导数 $g_i=2(\hat{y_i}^0-y_i)$ と二次導関数 $h_i=2$ , そして、すべての機能タイプをトラバースし、各機能に対応する機能値の範囲. 分割後、分割前後のゲイン成長を計算し、最大の成長を持つ分割ポイントを選択し、ノードまで分割を続けます分割前と分割後差が設定されたしきい値よりも小さいか、モデルの深さ、葉ノードの数などが設定されたしきい値を超えています。やっと、リーフノードの w 値は、上記の式に従って計算されます。: $-\frac{G_j}{H_j+\lambda}$ 、ここで $G_j、H_j$ は、このリーフノードに分類されるすべてのサンプルの 1 次導関数の合計と 2 次導関数の合計です。これにより、サンプルを計算し、規則に従って分割し、どのリーフノードに分類するかを決定できます。関数 $f_1(x_i)$ 。
3 番目のステップ (2 番目のツリーの構築): すべてのサンプルについて、前のすべてのツリーを通じて、セグメンテーション条件に従って、各ツリーのリーフノードに分類されるスコアの累積和が、現在のサンプルの予測スコアになります: yi $\hat{y_i}^1=f_0(x_i)+f_1(x_i)$ 、最初のツリー構築ルールプロセスに従って、2 番目のツリーの構築のために、各リーフノードのスコア $f_2(x_i)$
4 番目のステップ (3 番目のツリーの構築): すべてのサンプルは、以前に構築されたツリーを通過し、条件に従ってリーフノードに到達します。このときのサンプルの予測結果値は次のとおりです。 yi ^ 2 = f 0 ( xi ) + f 1 ( $\hat{y_i}^2 = f_0(x_i) + f_1(x_i) + f_2(x_i)$ ，根据最新结果，然后计算每个样本的 $g_i,h_i$ ，选择增益最大的gain作为切分点。
…
直到建树数量满足设置的阈值

模型结构
训练完后，就得到了N棵树，每一棵树的结构本质上是一连串的分段规则组成，根据输入样本的特征满足情况走树的不同分支，最后落入到树的某个叶子节点，其中落入到叶子节点的权重值就是这个样本在当前这课树的预测分值。

2.3 预测

当训练好了模型以后，预测的过程就简单了，假设有T棵树，则最终的模型预测结果为这个样本落入到每棵树的叶子节点分值之和，用公式表达如下：
$\hat{y_i} = \sum_{j=0}^Tf_j(x_i)$

3 训练框架

接下来介绍优化Gradient Boosting算法的几种分布式训练框架，这些框架支持分布式训练，树的调优，缺失值处理，正则化等避免过拟合问题。

3.1 XGBoost

XGBoost: A Scalable Tree Boosting System 是由2014年5月，由DMLC开发出来的，目前是比较受欢迎，高效分布式训练Gradient Boosted Trees算法框架，包含的详细资料可以参考官方文档: 官网文档。

3.2 LightGBM

LightGBM: 非常に効率的な勾配ブースティング決定木2017 年 1 月の Microsoft TeamsXGBoost フレームワークに存在するいくつかの問題を目指して、より効率的な学習フレームワークが設計されています。勾配片側サンプリング GOSS ((Gradient Based One Side Sampling) および EFB をマージする相互に排他的な機能(専用機能バンドル) モデルの学習効率を高速化します. 詳細については、公式ドキュメント公式サイトの. 以下は、lightgbm に基づくランクソートの簡単なコードです。

import lightgbm as lgb
import numpy as np 
import pandas as pd
from sklearn.model_selection import train_test_split
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
import shap
import graphviz

#读取数据，显示前面20行
df = pd.read_csv('train.csv')
df.head(20)
#显示数据列名称
df.columns
#抽取x,y对应的字段
X = df.drop(['label','query','term'], axis=1)
y = df.label
group=np.loadtxt('./group.txt')
#训练数据
train_data = lgb.Dataset(X, label=y, group=group,free_raw_data=False)
#参数定义
params = {
    
    
    'task' : 'train', 
    'boosting_type': 'gbdt',
    'objective': 'lambdarank',
    'num_iterations': 200,
    'learning_rate':0.1,
    'num_leaves': 31,
    'tree_learner': 'serial',
    'max_depth': 6,
    'metric': 'ndcg',
    'metric_freq': 10,
    'train_metric':True,
    'ndcg_at':[2],
    'max_bin':255,
    'max_position': 20,
    'verbose':0
}
#指明类别特征
categorical_feature=[0,1]
#训练
gbm=lgb.train(params,
              train_data,
              valid_sets=train_data,
              categorical_feature=categorical_feature)
#模型保存
gbm.save_model('model_large.md')
#预测
bst = lgb.Booster(model_file='model_large.md')
df_test = pd.read_csv('test.csv')
y_pred = bst.predict(test)

#feature重要度
fea_imp = pd.DataFrame({
    
    'imp': bst.feature_importance(importance_type='split'), 'col': X.columns})
fea_imp = fea_imp.sort_values(['imp', 'col'], ascending=[True, False]).iloc[-30:]
fea_imp.plot(kind='barh', x='col', y='imp', figsize=(10, 7), legend=None)
plt.title('Feature Importance')
plt.ylabel('Features')
plt.xlabel('Importance');
# 基于shap特征分析
explainer = shap.TreeExplainer(bst)
shap_values = explainer.shap_values(X)
shap.summary_plot(shap_values, X, plot_type="bar")
shap.summary_plot(shap_values, X)
shap.dependence_plot('entropy', shap_values, X, interaction_index=None, show=True)

3.3 キャットブースト

CatBoost: カテゴリ機能を使用した偏りのないブースティング2017 年 4 月、ロシアの検索大手 Yandex がxgboostを最適化するためのフレームワークを開発.このフレームワークの最大の利点は,カテゴリ特徴量を扱えることである.LightGBMと比較して,カテゴリ特徴量のラベルエンコーディングが不要であり,ユーザーが迅速に操作するのに便利である. 詳細な公式ウェブサイト:公式ウェブサイト, 以下は 3 つの詳細な比較表です:
トレーニングロスの比較:
ここに画像の説明を挿入
モデルのパフォーマンスの比較: 左が CPU マシン、右が GPU マシンです

。 XGBoost や LightGBM と比較して、指数収束効果が確実に向上の条件下で、モデルのパフォーマンスが大幅に向上しました。以下は、Catboost に基づくトレーニングの簡単なコード例です。

import numpy as np 
import pandas as pd
import os
from sklearn.metrics import mean_squared_error
from sklearn import feature_selection
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
import seaborn as sns
import matplotlib.pyplot as plt

#读取数据
df = pd.read_csv('data.csv')
df.head()
#显示特征名
df.columns
#显示某个特征名的数据情况
pd.set_option('display.float_format', '{:.2f}'.format)
df.f_ctf.describe()
#特征分布显示
plt.figure(figsize = (10, 4))
plt.scatter(range(df.shape[0]), np.sort(df['f_ctf'].values))
plt.xlabel('index')
plt.ylabel('f_ctf')
plt.title("f_ctf Distribution")
plt.show();
#训练样本划分
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.20, random_state=42)
#指明categorical特征
categorical_features_indices=[1,2,3]
#模型训练
model =  CatBoostClassifier(iterations=700,
                             learning_rate=0.01,
                             depth=15,
                             eval_metric='AUC',
                             random_seed = 42,
                             bagging_temperature = 0.2,
                             od_type='Iter',
                             metric_period = 75,
                             loss_function='Logloss',
                             od_wait=100)
model.fit(X_train, y_train,
                 eval_set=(X_valid, y_valid),
                 cat_features=categorical_features_indices,
                 use_best_model=True,
                 plot=True)

#特征重要度显示
fea_imp = pd.DataFrame({
    
    'imp': model.feature_importances_, 'col': X.columns})
fea_imp = fea_imp.sort_values(['imp', 'col'], ascending=[True,False]).iloc[-30:]
fea_imp.plot(kind='barh', x='col', y='imp', figsize=(10, 7), legend=None)
plt.title('CatBoost - Feature Importance')
plt.ylabel('Features')
plt.xlabel('Importance');

3.4 NGブースト

NGBoost: 確率的予測のための自然勾配ブースティングは、比較的新しいトレーニング勾配ブースティングアルゴリズムフレームワークです。で2019 年 10 月、スタンフォード大学の Andrew Ng のチームによる公開。github コードは次の場所に記録されています: NGBoost Github、コアポイントは確率的予測のためのモジュラーブースティングアルゴリズムである自然勾配ブースティングを使用します。. アルゴリズムは、基本学習器、パラメータ確率分布、およびスコアリングルールで構成されます。

4 ツリーモデルと深度モデルの組み合わせ

ツリーモデルは解釈可能性と安定性に優れていますが、意味的な特徴がなく、汎化能力が十分でないという欠点があるため、実際のシナリオでは、ツリーモデルをディープラーニングモデルと組み合わせることができます。単純平均は改善する必要がある. これは効果を比較するための簡単な実験である. bertモデルはgbdtモデルと比較して感情分類タスクに一定の改善があります. ただし, bertとgbdtの結果を組み合わせて単純に計算する.平均値が最も効果的です. 詳細は誰かが作成したものを参照してください. 単純な比較テスト: bert vs catboost

6 参考文献

1 GBDT Youtube ビデオ

GBDT アルゴリズムの原理の説明と一般的に使用されるトレーニングフレームワークの概要: XGBoost LightGBM CatBoost NGBoost

目次

1 基礎知識のポイント

1.1 アンサンブル学習

1.2 バギングとブースティング

1.3 適応ブースティング

1.3 勾配ブースティング

2 GBDT アルゴリズム

2.1 原則

2.2 トレーニング

2.3 预测

3 训练框架

3.1 XGBoost

3.2 LightGBM

3.3 キャットブースト

3.4 NGブースト

4 ツリーモデルと深度モデルの組み合わせ

6 参考文献

おすすめ

GBDT アルゴリズムの原理の説明と一般的に使用されるトレーニング フレームワークの概要: XGBoost LightGBM CatBoost NGBoost

目次

1 基礎知識のポイント

1.1 アンサンブル学習

1.2 バギングとブースティング

1.3 適応ブースティング

1.3 勾配ブースティング

2 GBDT アルゴリズム

2.1 原則

2.2 トレーニング

2.3 预测

3 训练框架

3.1 XGBoost

3.2 LightGBM

3.3 キャットブースト

3.4 NGブースト

4 ツリーモデルと深度モデルの組み合わせ

6 参考文献

おすすめ

GBDT アルゴリズムの原理の説明と一般的に使用されるトレーニングフレームワークの概要: XGBoost LightGBM CatBoost NGBoost