多變數分析(終圖)
最後**貸款利率與信用評分和評級之間的關係:
data
$creditgrade
data
$creditgrade
,order=true,
levels = c(
"aa"
,"a"
,"b"
,"c"
,"d"
,"e"
,"hr"))
data
$prosperrating
..alpha.
data
$prosperrating
..alpha.
,order=true,
levels = c(
"aa"
,"a"
,"b"
,"c"
,"d"
,"e"
,"hr"))
p1 ,data=subset(
data,!
(data
$creditgrade==""
|data
$creditgrade=="nc"))
)+geom_jitter(alpha=0.5)
+scale_x_continuous(limits = c(400,1000))+
scale_color_brewer(
type = "div"
, guide=guide_legend(title = "creditlevel(pre-2009)"))
+ ggtitle(
"2023年之前貸款利率與信用評分和評級關係圖"
)p2
.alpha.),
data
=subset(
data,!
(data
$prosperrating
..alpha.==""))
)+geom_jitter(alpha=0.5)
+scale_x_continuous(limits = c(400,1000))+
scale_color_brewer(
type = "div"
, guide=guide_legend(title = "creditlevel(post-2009)"))
+ ggtitle(
"2023年之後貸款利率與信用評分和評級關係圖"
推論:1.2023年之後,平台不再對信用分數600分之下的使用者提供貸款服務;
2.2023年之前,使用者信用等級與使用者的信用分數分布一致,隨信用分數的增高,使用者的信用等級逐漸增加,對信用等級的評定中信用分數作用將強。但貸款利率並未與這兩者有太強的聯絡。而2023年之後,弱化了信用分數對信用等級的影響。信用等級與分數相聯絡,但信用等級影響客戶的貸款利率。等級高的客戶貸款利率低,等級低的使用者貸款利率高,更為公平。
data
$phase
data
$phase
,order=true,levels = c(
"before 2009"
,"after 2009"))
data
$creditlevel
data
$creditlevel
,order=true,levels = c(
"aa"
,"a"
,"b"
,"c"
,"d"
,"e"
,"hr"))
ggplot(aes(x=creditlevel,y=borrowerrate,color=newloanstatus)
,data = subset(
data,!
(is.na(
data
$newloanstatus
)|is.na(
data
$creditlevel))
))+ geom_jitter(alpha=0.5)
+facet_wrap(~phase)
+ ggtitle(
"2023年前後信用等級與貸款利率分析"
由上圖分析可知,信用等級對貸款利率影響較大。此次根據信用等級繪圖,可以再一次看到2023年之後信用等級和貸款利率之間的聯絡更好。2023年之前呈圖更為凌亂,使用者信用等級低也可用較低利率貸款,出現問題貸款的次數更多,而2023年之後情況明顯好轉。因此,2023年之後的信用評定準則更為合適。
ggplot(aes(x=bankcardutilization,y=statedmonthlyincome,color=creditlevel)
,data = subset(
data,!
(is.na(
data
$creditlevel))
))+ geom_jitter(alpha=0.5)
+scale_y_continuous(limits =c(0,50000))+
scale_x_continuous(limits = c(0,2))+
facet_wrap(~isborrowerhomeowner)
+scale_color_brewer(
type = "seq")+
theme(panel.background = element_rect(fill="#dcdcdc"),
panel.grid = element_blank())
+ ggtitle(
"信用等級影響因素分析"
信用等級評定對借款利率影響較大,故而分析一下除信用評分外對信用等級評定有影響的因素。通過分析發現: 1. 信用卡使用情況對信用評定影響較大。借款人信用卡使用額度和信用卡總透支額度的百分比越高,透支使用越嚴重,信用等級越低; 2. 借款人聲稱的月收入越高,借款人的信用更有可能越高,但這一影響力表現不太明顯; 3. 借款人是否有房產一定程度上影響其信用等級。左圖為無房產,右圖為有房產,右圖的高信用等級佔比高於左圖。
反思該模擬**實驗從單變數、兩個變數到多變數對prosper的貸款資料進行了初步的分析和資料視覺化,主要分析了平台的客戶特徵,問題貸款、貸款利率以及信用等級和信用評分之間的關係,最後分析了影響信用等級的因素。 主要得出以下結論:
分析過程中遇到的難點:
資料集中變數較多,很難理清關係,在前期單變數探索的時候需要更加注重對每乙個變數的分析,加強對變數的認識。
需要在分析之處建立較為完善的分析目的,不然容易在分析到後面的時候容易因為變數過多理不清思路,下次可以在單變數探索之後圈定幾個感興趣的變數進行集中分析。
目前已經分析出來容易出現問題貸款的人群特徵,下一步可以以此建模,圈定易問題貸款的客戶群體,提高借貸利率。同時也分析出信用等級評定與哪些因素有關,可以再多**幾個變數,完善這一資訊,總結出較為完整的可以提高信用等級的方式。通過這兩個思路可以讓後續的報告思路更為清晰,結果更為明確。
R語言 資料分析
二 大資料分析 三 資料分析常用工具 資料分析是指用適當的統計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發資料資料的功能,發揮資料的作用。資料分析是為了驗證假設的問題,需要提供必要的資料驗證。分析模型構建完成後,需要利用測試資料驗證模型的正確性。資料分析是為了挖掘更多的問題,並...
R語言 基本資料分析
本文基於r語言進行基本資料統計分析,包括基本作圖,線性擬合,邏輯回歸,bootstrap取樣和anova方差分析的實現及應用。不多說,直接上 中有注釋。1.基本作圖 盒圖,qq圖 basic plot boxplot x qqplot x,y 2.線性擬合 linear regression n 1...
R語言 TCGA資料分析一
我最近在做tcga資料分析,在處理中遇到的問題及其收穫。主要包括 涉及到的函式有 小寫 大寫 單一的區域性匹配 多個全域性匹配 保留固定長度的字元在ranseqgene中case id 為大寫的,而clincial中為小寫的。需要對case id 做轉換。方案一 大寫變小寫tolower colna...