R次善の言語荷物smbinning
ビン処理を数値制御連続可変風モデルをスコアカードを要求され、このプロセスは、離散的なデータとして知られています。smbinningパッケージは、最適なビニング方法数値変数、すなわち条件推論ツリー(条件推論ツリー)を用いて離散化されています。最終的に算出したIV値が欠損値とみなされるとき、アルゴリズムの開始は、欠損値はポイントを割ることを探していました除外する。
あなたがsmbinningない場合は、インストールしてください
install.packages('smbinning')
smbinningがRSQLiteパッケージに依存しているので、通話RMySQLパッケージがありますが、パッケージをsmbinning前に呼び出した場合、次のエラーが発生する可能性があります。
Error in .local(drv, ...) :
Failed to connect to database: Error: Can't connect to MySQL server on 'localhost' (0)
Error in !dbPreExists : invalid argument type
だから、呼び出し中RMySQLパッケージがある場合は、smbinningパッケージを呼び出す前に、あなたが最初に必要
RMySQLは、パッケージを軽減しました:
detach("package:RMySQL")
パケット呼Smbinning
ライブラリ(smbinning)
最適ビン関数:
(DF、Y、X、P = 0.05)smbinning
:各パラメータの意味は次の通りである
; Yは応答変数(0,1)であり、整数でなければならないDFがデータフレームであります変数名に含めることはできません「 『; X連続変数、少なくとも5つの異なる値と変数名を含めることはできません』。」;すなわち、各サンプルのp個の割合、デフォルトでは5パーセント、サンプルの各グループ内のビンの数は、5未満にすることはできません後%。0から0.5までのパラメータ範囲。
例:
まず、データ構造をチェック
str(chileancredit)
特定の変数に応じてCBS1除ボックスには、フィールドや保存をfgood:
result<-smbinning(df=chileancredit,y="fgood",x="cbs1")
あなたは結果の結果を見ることができます:
あなたは、各ビンの詳細を確認することができ、ビン値、サンプル数、サンプルのかなりの数、悪いサンプル、WOE値とIV値の数を含みます。
###设置2*2的绘图样式###
par(mfrow=c(2,2))
###在第一幅图中绘制在fgood的条件下的cbs1的箱图###
boxplot(chileancredit$cbs1~chileancredit$fgood,
horizontal=TRUE, frame=FALSE, col="lightgray",main="Distribution")
mtext("Credit Score",3)
###第二幅图中绘制分箱后的分布图###
smbinning.plot(result,option="dist",sub="Credit Score")
###第三幅图中绘制分箱后的坏样本率###
smbinning.plot(result,option="badrate",sub="Credit Score")
###第四幅图中绘制分箱后WOE值###
smbinning.plot(result,option="WoE",sub="Credit Score")
par(mfrow=c(1,1))
次のように得られた画像です。
で、元のサイトを再現した
オリジナルのため、このURL