単変量解析
まず、分析のための基本的な顧客情報プラットフォームは、傾向を分析するためのターゲット顧客の一般的な特性を持ち、貸付金及びその他の理由のために適用され、場所、信用状況が含まれます。
- 地域分布:
library(ggplot2)
ggplot(data=subset(data,!data$BorrowerState==""),
aes(x=BorrowerState))+geom_bar(fill="pink",color="black")+
theme(axis.text = element_text(size = 5) )
あなたは、新しい顧客を開発するために、状態の残りの部分で宣伝を高めるために適切な場合があり、先に他の国の、カリフォルニア、ニューヨーク、フロリダ、テキサス、より多くのイリノイ州の分布で、同社の顧客を見ることができます。プロスパーは、サンフランシスコに本社を置き、それはまた、エルセグンドー、カリフォルニアを使っている人の数が最も多いと関連付けられてもよいです。
- 分析に違反:
ggplot(data=subset(data,!data$DelinquenciesLast7Years==""),
aes(x=DelinquenciesLast7Years))+geom_bar(fill="orange",color="black")+
theme(axis.text = element_text(size = 5) )+scale_x_continuous(limits = c(-1,50))
- カスタマー・雇用情勢:
ggplot(aes(EmploymentStatus),data = subset(data,!(data$EmploymentStatus==""))) +
geom_bar(color="black",fill=I("#B2DFEE"),width = 0.5) +
theme(axis.text.x=element_text(angle = 90,hjust = 1,vjust=0,size=8))
プラットフォームは、ほとんどの顧客は、雇用やフルタイムで雇用された見ることができ、我々は仕事、安定した収入があります。
- お客様のクレジットクエリ:
bar_plot <- function(varname, binwidth) {
return(ggplot(aes_string(x = varname), data = data) + geom_histogram(binwidth = binwidth))
}
bar_plot('InquiriesLast6Months',1)+
coord_cartesian(xlim=c(0,quantile(data$InquiriesLast6Months,probs = 0.95,
"na.rm" = TRUE)))+
geom_vline(xintercept = quantile(data$InquiriesLast6Months,
probs = 0.95, "na.rm" = TRUE),
linetype = "dashed", color = "red")+
theme(panel.background =element_rect(fill="white"))
最近の信用照会の数がある程度より強い多くの借り手のローン申請数、資金の数を示します。この図は、顧客のローンの数の95%未満であった5倍で見ることができます。
- お客様のベネフィット比の債務状況:
bar_plot('DebtToIncomeRatio',0.04)+
coord_cartesian(xlim=c(0,quantile(data$DebtToIncomeRatio,probs = 0.95,
"na.rm" = TRUE)))+
geom_vline(xintercept = quantile(data$DebtToIncomeRatio,
probs = 0.95, "na.rm" = TRUE),
linetype = "dashed", color = "red")+
theme(panel.background =element_rect(fill="white"))
負債の利益は、ローンを返済する能力が、0.5未満の負債利益率のプラットフォームは95%高い割合低く、全体的な顧客負債の収入は比較的低いです。
- お客様の月収:
bar_plot('StatedMonthlyIncome',425)+
scale_x_continuous(limits = (c(0,15000)),breaks = seq(0,15000,500))+
geom_vline(xintercept = 5000, linetype = "dashed", color = "red")+
geom_vline(xintercept = 3000, linetype = "dashed", color = "red")+
theme(panel.background =element_rect(fill="white"))+
theme(axis.text.x=element_text(angle = 90,hjust = 1,vjust=0,size=8))
3,000〜5,000ドルの間のほとんどの借り手月給を見ることができます。
- ローンの理由:
ggplot(data,aes(x=ListingCategory..numeric.))+
geom_bar(color="black",fill=I("#70DBDB"))+scale_x_continuous(breaks = c(0:20))+scale_y_sqrt()
この分析で、私たちは、主に借入金のカテゴリ1,0,7の使用に焦点を当て見ることができます。それはローンの特定の目的をクリアしていないので、対応する特定の意味を与えていないので、それは完全な情報で照会することができます。
- プラットフォームユーザーの信用力(定格/スコア):
library(gridExtra)
data$creditlevel <- factor(data$creditlevel,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
data$CreditGrade <- factor(data$CreditGrade,order=TRUE,levels = c("AA","A","B","C","D","E","HR"))
data$ProsperRating..Alpha. <- factor(data$ProsperRating..Alpha.,order=TRUE,
levels = c("AA","A","B","C","D","E","HR"))
p1 <- ggplot(data,aes(x=creditscore))+
geom_histogram(binwidth=20,color="black",fill=I("#DBDB70"))+
scale_x_continuous(limits = c(400,900))
p2 <- ggplot(data=subset(data,data$CreditGrade!=""& data$CreditGrade!="NC"),aes(x=CreditGrade))+
geom_bar(color="black",fill=I("#7093DB"))+
xlab("creditlevel(pre2009)")
p3 <- ggplot(data=subset(data,data$ProsperRating..Alpha.!=""),
aes(x=ProsperRating..Alpha.))+
geom_bar(color="black",fill=I("#E9C2A6"))+
xlab("creditlevel(after2009)")
p4 <- ggplot(data=subset(data,!is.na(data$creditlevel)),aes(x=creditlevel))+
geom_bar(color="black",fill=I("#EAADEA"))
grid.arrange(p1,p2,p3,p4,ncol = 1)
顧客の信用格付けとスコアグラフィックスによると、私たちは、主に650〜750個のクレジットスコアポイントに、正規分布の基本的な見ることができ、B、C、D、および2009の後、AレベルとユーザーレベルのユーザーとAAの信用格付けに焦点を当て明確EレベルのユーザーとHR部門の終わり。