R次善の言語荷物smbinning

R次善の言語荷物smbinning

ビン処理を数値制御連続可変風モデルをスコアカードを要求され、このプロセスは、離散的なデータとして知られています。smbinningパッケージは、最適なビニング方法数値変数、すなわち条件推論ツリー(条件推論ツリー)を用いて離散化されています。最終的に算出したIV値が欠損値とみなされるとき、アルゴリズムの開始は、欠損値はポイントを割ることを探していました除外する。
あなたがsmbinningない場合は、インストールしてください

   install.packages('smbinning')

smbinningがRSQLiteパッケージに依存しているので、通話RMySQLパッケージがありますが、パッケージをsmbinning前に呼び出した場合、次のエラーが発生する可能性があります。

 Error in .local(drv, ...) : 

  Failed to connect to database: Error: Can't connect to MySQL server on 'localhost' (0)
Error in !dbPreExists : invalid argument type

だから、呼び出し中RMySQLパッケージがある場合は、smbinningパッケージを呼び出す前に、あなたが最初に必要

RMySQLは、パッケージを軽減しました:

detach("package:RMySQL")

パケット呼Smbinning
ライブラリ(smbinning)
最適ビン関数:
(DF、Y、X、P = 0.05)smbinning
:各パラメータの意味は次の通りである
; Yは応答変数(0,1)であり、整数でなければならないDFがデータフレームであります変数名に含めることはできません「 『; X連続変数、少なくとも5つの異なる値と変数名を含めることはできません』。」;すなわち、各サンプルのp個の割合、デフォルトでは5パーセント、サンプルの各グループ内のビンの数は、5未満にすることはできません後%。0から0.5までのパラメータ範囲。

例:

まず、データ構造をチェック

str(chileancredit)

ここに画像を挿入説明
特定の変数に応じてCBS1除ボックスには、フィールドや保存をfgood:

result<-smbinning(df=chileancredit,y="fgood",x="cbs1")

あなたは結果の結果を見ることができます:
![ここの挿入の説明](https://img-blog.csdnimg.cn/20200121165334235.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjcxMjg2Nw==,size_16,color_FFFFFF,t_70
あなたは、各ビンの詳細を確認することができ、ビン値、サンプル数、サンプルのかなりの数、悪いサンプル、WOE値とIV値の数を含みます。

###设置2*2的绘图样式###
par(mfrow=c(2,2))
###在第一幅图中绘制在fgood的条件下的cbs1的箱图###
boxplot(chileancredit$cbs1~chileancredit$fgood,
        horizontal=TRUE, frame=FALSE, col="lightgray",main="Distribution")
mtext("Credit Score",3)
###第二幅图中绘制分箱后的分布图###
smbinning.plot(result,option="dist",sub="Credit Score")
###第三幅图中绘制分箱后的坏样本率###
smbinning.plot(result,option="badrate",sub="Credit Score")
###第四幅图中绘制分箱后WOE值###
smbinning.plot(result,option="WoE",sub="Credit Score")
par(mfrow=c(1,1))

次のように得られた画像です。
ここに画像を挿入説明

で、元のサイトを再現した
オリジナルのため、このURL

公開された39元の記事 ウォン称賛11 ビュー10000 +

おすすめ

転載: blog.csdn.net/weixin_42712867/article/details/104063629