本文旨在通過乙個完整的實戰例子,演示從源資料清洗到特徵工程建立,再到模型訓練,以及模型驗證和評估的乙個機器學習的完整流程。由於初識機器學習,會比較多的困惑,希望通過借助這個實戰的例子,可以幫助大家對機器學習了乙個初步的認識。
本文旨在通過乙個完整的實戰例子,演示從源資料清洗到特徵工程建立,再到模型訓練,以及模型驗證和評估的乙個機器學習的完整流程。由於初識機器學習,會比較多的困惑,希望通過借助這個實戰的例子,可以幫助大家對機器學習了乙個初步的認識。
【資料**】
lending club是美國最大的p2p網貸交易平台,利用網路技術直接連線了個人投資者和個人借貸者,縮短資金流通的細節,繞過傳統的大銀行等金融機構,使得投資者和借貸者都能得到更多實惠。對於投資者來說,可以獲得更好的回報;對於借貸者來說,則可以獲得相對較低的貸款利率。
在借貸行業中,投資者向借貸者提供貸款以獲取利息。如果借貸者順利償還貸款,投資者則獲得利息收益。如果借貸者無法償還貸款,投資者則損失貸款本金。因此,對於投資者來說,需要**借貸者無法償還貸款的風險,最大程度地避免投資損失,最大程度地實現投資回報。
【實施步驟】
一、 總體流程說明
資料分析的開始是從了解你要分析的資料以及了解你本次機器學習的目標開始的。需要分清是分類問題,還是回歸問題,同時需要了解資料的構造,哪些是自變數(特徵),哪個是因變數(目標變數)。就本次目標來看,因為目標變數是loan_statas(還款狀態),它是乙個標稱值,因此本次是乙個分類問題。
進入資料清洗階段,主要是去除一些缺失嚴重的樣式或者特徵,同時去除一些跟業務無關的特徵,以及方差比較小的特徵。建立特徵工程時,主要是對裡面字元特徵進行處理,將其轉成數值型,以及對一些資料值特徵進行歸一化等處理;模型訓練時,主要是選擇合適的演算法以及選擇合適的超引數;模型評估就是將在訓練集上執行好的模型,在測試集上進行驗證評估。
二、了解資料集
使用pandas讀取資料集,然後檢視資料資訊
可以看出一共包含了99122條記錄,一共有121個特徵和乙個目標變數,這些列的型別分布:float64有97個,字元型有25個。
三、 資料清洗
▲取出特徵x以及目標變數y
其中load_data是自己封裝的乙個函式,用於根據targetcol來分割原來的df。
▲根據業務去掉不需要的列
目前主要包含:無關的標識字段以及貸後字段
▲呼叫自定義函式進行清理
主要包含的以下操作:
▪ 去除所有行以及所有的列均為nan的資料
▪ 去除缺失率高的特徵,這裡超過0.9則不考慮
▪ 去除特徵中包含例項類別太多的特徵,預設包含1000個例項則不考慮
▪ 對於數值型,如果標準差太小的,則不考慮該特徵
可以從列印出的日誌上看出,經過上一步的清洗步驟,已經從原來的121個特徵變數,降成75個特徵變數。
再看一下清洗完後,目前的特徵中樣本缺失度情況:
由圖可以目前缺失最高的mths_since_last_record在80%左右,在預設範圍內,整體情況還相對理想。
▲檢視特徵的相關程度
從上述的相關係數的關聯情況可以看出:funded_amnt,loan_amnt,funded_amnt_inv這幾個特徵的關聯比較強,僅保留funded_amnt,去除其它兩個特徵,經過清洗後只剩下了73個特徵。
四、特徵工程
▲對目標變數的處理
檢視目標變數y的值的分布情況
根據業務來理解,current和fully paid使用者是屬於信用良好的樣本,用1表示,late (31-120 days)和late (16-30 days)逾期的使用者就歸於信用不好的樣本,用0表示,其它的幾類就暫時用np.nan來代替,本次暫時不分析,先刪除這些空的3912個樣本。
處理完後,目標變數的分布如下:
▲對字元型特徵的處理
檢視當前特徵中字元型的特徵主要包含:
同時將init_rate轉成float型別,將emp_length處理成int型別,對剩下的三個home_ownership,verification_status,initial_list_status型別變數做獨熱編碼,使用pd.get_dummies函式,同時去除原始的那三個字段。
經過如上的處理,將其全部字元型的特徵轉成了數值型。
▲對整體數值型特徵的處理
這裡主要對缺失值處理,使用每個特徵的中位數進行缺失值填充。
到此已全部完成了特徵工程的建立,最終特徵工程包含95210個樣本以及 77特徵,建好的特徵工程進入下一階段的模型訓練。
五、 模型訓練
因為考慮到樣本的不均衡性,交叉驗證的方法使用stratifiedshufflesplit方式來劃分樣本,同時學習器使用gbrt演算法,同時randomizedsearchcv進行最優引數選擇。目前只是設定了基本的引數:
通過訓練集的充分訓練後,得到目前gbrt最優的引數如下:
然後使用這個最優的模型來對測試集進行**:
這樣我們就得到了測試集在這個模型中跑出來的結果y_predicted陣列,然後將它與y_test進行比對就可以對該模型進行評估,具體的可以檢視2.6小結的結果。
六、模型評估
▲檢視分類報告
可以看出整體平均的精確度和召回率和f1值還是可以的,不過對於樣本0的召回率和f1值為0,可能需要進一步優化。
▲檢視學習曲線
學習曲線是一條關於樣本個數和經驗損失函式之間的曲線,通過學習曲線可以看到關於偏差、方差用於改善機器學習演算法的決策提供依據;從目前的曲線可以看出,訓練得分和測試得分基本穩定在0.972這個點,相對來說比較理想。
【結論與展望】
▪ 如何更好的處理樣本的不平衡性
▪ 是否考慮其它的演算法進行比對效果,比如xgboost
▪ 演算法的超引數調優可以增加幾個變數調優
▪ 特徵工程的建立還是稍微粗糙了些,還是可以再細化(比如特徵的組合,特徵的重要性排序,數值型特徵的歸一化處理等)
金融反欺詐模型
整個專案做下來,感受最深的其實是如何從眾多的特徵中選出最實用的特徵變數。資料讀取,skiprows的含義表示跳過第一行,從第二行開始讀取 data pd.read csv g data loanstats 2016q2 loanstats 2016q2.csv skiprows 1,low memo...
機器學習實戰 機器學習實戰 支援向量機(一)
從分類效力來講,svm在無論線性還是非線性分類中,都十分出色 現在桌子上有一些雜亂的 小球 我們想要將他們分開 我們可以放一根棒棒上去 是不是看起來還行,小棍將藍色球和紅色球分開。但這時,又有個人把一顆紅色的小球放在了棍子的另一邊,這樣就有乙個球似乎落在了錯誤的一側,我們可能需要調整棒棒 所謂,sv...
機器學習專案實戰之信用卡欺詐檢測
反欺詐應用的機器模型演算法,多為二分類演算法。1 gbdt梯度提公升決策樹 gradient boosting decision tree,gbdt 演算法,該演算法的效能高,且在各類資料探勘中應用廣泛,表現優秀,被應用的場景較多。2 logistic回歸又稱logistic回歸分析,是一種廣義的線...