資料分箱指的是將連續資料離散化。
離散化對異常值具有魯棒性,運算更快方便儲存,而且特徵可變性更強方便迭代,特徵離散後的模型更加穩定。
在這裡主要介紹卡方分箱:
1.先確定最終分幾個箱,也就是最後分幾個離散值。
2.如果變數樣本大於100,那麼先等距的劃分為100箱。
3.計算每一對相鄰箱間的卡方值
4.將卡方值最小的兩個區間合併,一直重複3-4直到滿足最終分箱個數。
二、分箱評估
通過iv(information value)值進行分箱評估。
1.先計算woe(weight of evidence)值
woe=
p(b)是壞客戶的比例,p(g)是好客戶的比例。
對每一組分箱都計算出相對應的woe值。
2.iv值計算
iv=woe*(p(g)-p(b)),對每一組進行計算並求和得到最終的iv值,以此判斷這樣分箱效果如何。
3.最後進行檢驗
如何在Python中實現資料分箱
1 資料分箱 資料分箱技術在pandas官方給出的定義 bin values into discrete intervals,是指將值劃分到離散區間。好比不同大小的蘋果歸類到幾個事先布置的箱子中 不同年齡的人劃分到幾個年齡段中。這種技術在資料處理時會很有用。2 例子 我們先來看例子 import n...
python 資料處理之分箱操作
什麼是分箱?簡單點說就是將不同的東西,按照特定的條件放到乙個指定容器裡,比如水果 把綠色的放乙個籃子裡,紅色乙個籃子等等,這個籃子就是箱,而水果就是資料 顏色就是條件 什麼樣式的資料要進行分箱 資料主要分為連續變數和分類變數,分箱的操作主要針對於連續變數。為什麼要對資料進行分箱操作 穩定性,時間複雜...
利用python 計算百分位數實現資料分箱
百分位數,如果將一組資料從小到大排序,並計算相應的累計百分位,則某一百分位所對應資料的值就稱為這一百分位的百分位數。可表示為 一組n個觀測值按數值大小排列。如,處於p 位置的值稱第p百分位數。因為百分位數是採用等分的方式劃分資料,因此也可用此方法進行等頻分箱。import pandas as pd ...