建模tips
數值型特徵本是可以直接入模的,但往往風控人員要對其做分箱,轉化為woe編碼進而做標準評分卡等操作。從模型效果上來看,特徵分箱主要是為了降低變數的複雜性,減少變數噪音對模型的影響,提高自變數和因變數的相關度。從而使模型更加穩定。
資料分桶的物件:
分箱的原因:
分箱的優點:
特別要注意一下分箱的基本原則:
在統計學中,如果乙個資料分布近似正態,那麼大約 68% 的資料值會在均值的乙個標準差範圍內,大約 95% 會在兩個標準差範圍內,大約 99.7% 會在三個標準差範圍內。所以我們平時用的三個標準差(均值-3*標準差)作為臨界點是有依據的,但是要注意資料是否符合正太分布,或者是偏正態分佈
樹模型對特徵的接受能力比較強,不需要對特徵歸一化,也不需要去相關性
當特徵的iv值比較高的時候,我們可以使用邏輯回歸或者決策樹模型,但當資料特徵iv不高,也就是和y值弱相關時,我們可以考慮使用xgboost等,當特徵類別型變數特別多時,我們可以使用catboost,
String 一些問題
前言 等號 對於基本型別,比較的是值,對於引用型別,比較的是記憶體位址。1.在物件池中建立,如果常量池中已經存在則返回常量池中已經有的。private static void test1 結果 true 2.乙個在string pool中,乙個在堆中。private static void test...
C 一些問題
1 if else語句和switch case語句的效率分析對比 switch效率高。switch的效率與分支數無關,當只有分支比較少的時候,if效率比switch高,因為switch有跳轉表。分支比較多,那當然是switch 根據大量的實際程式測試 不考慮不同的編譯器優化程度差異,假設都是最好的優...
mysql 一些問題
1 中文亂碼 問題 推薦用 uft 8 編碼 適配一切介面,mysql中 發生中文亂碼時 開啟mysql 安裝路徑 更改後 重啟mysql 服務即可,有時也需要 重新匯入資料庫 可能是與 source 檔案時 編碼沒有設定好 client password your password port 33...