資料探勘實戰之金融風控第四課 建模與調參

2021-10-09 18:32:53 字數 653 閱讀 3853

一、常用演算法及優缺點介紹

邏輯回歸優點:簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響

缺點:不能用logistic回歸去解決非線性問題,因為logistic的決策面是線性的;

決策樹優點:簡單直觀,生成的決策樹可以視覺化展示,資料不需要預處理,不需要歸一化,不需要處理缺失資料

缺點:決策樹演算法非常容易過擬合,導致泛化能力不強

二、整合方法主要包括bagging和boosting。常見的基於baggin思想的整合模型有:隨機森林、基於boosting思想的整合模型有:adaboost、gbdt、xgboost、lightgbm等。

三、資料集劃分總結:

對於資料量充足的時候,通常採用留出法或者k折交叉驗證法來進行訓練/測試集的劃分;

對於資料集小且難以有效劃分訓練/測試集時使用自助法

對於資料集小且可有效劃分的時候最好使用留一法來進行劃分,因為這種方法最為準確

四、模型調參:

1. 貪心調參

2. 網格搜尋:

3、貝葉斯調參

大資料第四課

第四課 hadoop的背景起源三 bigtable 大表 nosql資料庫 hbase 第一節 關係型資料庫 oracle mysql sql server 的特點 1 什麼是關係型資料庫?基於關係模型 基於二維表 所提出的一種資料庫 2 er entity relationalship 模型 通過...

資料探勘實戰之金融風控第一課 賽題理解

第二步 分析賽題資料 共有47個特徵 id 唯一標識,沒有用 數值特徵 12個 loanamnt貸款金額 interestrate貸款利率 installment分期付款金額 employmenttitle就業職稱 行業相關?annualincome年收入 dti債務收入比 openacc借款人信用...

資料結構與演算法 第四課

面試 指標 資料 truct結構體 結點 一 head.h 標頭檔案iostream 建立結點結構體struct node 建立單鏈表及功能實現 二 head.cpp建立各功能 1無參建構函式list list t a,int n 2析構函式list list 3遍歷函式void list prin...