我眼中的變數水平壓縮(二)

2021-09-24 16:52:22 字數 1391 閱讀 7608

woe是什麼

woe是一種證據權重,全稱為weight of evidence,是變數壓縮時我會採用的第二種方法。目前woe變換也是信用評分模型中標準的處理流程、必不可少的步驟之一。

woe怎麼算

下面即為woe的計算過程,其中,woe=ln(p(y=1)/p(y=0))。sas中可自動實現woe轉換,使用高效能的邏輯回歸過程即可實現,或者使用公式直接帶入也可以得到,非常簡單。

入模變數全部進行woe轉換

需要注意的是,woe有乙個挑戰,例如0-1形式的性別變數,其本身無法進行連續化處理,理論上這種天生離散的變數是無法進行woe轉換的,但是一般情況下為方便建模,所有的變數都會進行woe處理。後續建模時原始變數不再使用了,入模的是woe處理後的變數

woe轉換的優勢

雖然,woe轉換對於模型質量的提公升貢獻不大,但是從自變數壓縮、模型複雜性降低的角度而言,woe還是比較實用的。         一般,資料按照密度分布劃分會有四種分布形態,即鐘型、水平、u型與j型分布。如果資料為鐘型且非對稱分布,即資料分布有偏移,則需要通過變換將資料拉成對稱的分布形態,如果資料不是鐘型分布而是其他三種分布,此時如果想將資料轉換成正態分佈,通過box-cox變換是無能為力的,這時可以利用woe轉換。

通常,我的做法是

以上,即可將乙個非正態的分布變成了正態的形式。當然,將連續變數分組最直觀的好處就是便於打分,一般,嚴格的fico模型,要求每乙個連續變數都必須進行分組處理

個人**:

我眼中的光明 第二週

暗八仙 一 這個名詞是我在 日落蒼狼 中看到的,感覺很有趣,心想嘛,八仙就是八仙,還分什麼明八仙和暗八仙,誰知竟然真的分。八仙過海各顯神通 乙個很好的例子。因為八仙來自民間,非常接地氣,並且本領十分高強。而暗八仙代表了八仙的八種法器,用其代表八仙既有吉祥如意的寓意,也代表萬能的法術。因此分外受老百姓...

我,眼中的詩歌

我,眼中的詩歌 給我一杯茶,乙個幽靜的地方,我好看些詩歌。寫前面 詩歌是一種態度。詩歌是燕子低低地飛過屋簷。詩歌是古代西方 盛行的決鬥。詩歌是人類本身一直都存在的 極為樸素的一種本能。詩歌和性別無關 和身材無關,和你曾看過多少書也沒有直接的 聯絡,造物主將嘴巴賦予人類的同時 也賦予了人類詩歌。詩歌是...

我眼中的委託

首先委託是乙個型別,和int string一樣,我們日常說的委託其實是委託型別的變數,委託的作用就是把方法當成引數來傳遞,將方法賦值給委託型別的變數,然後由這個變數去呼叫執行方法。換個方式,委託沒有具體實現體,因為委託就是叫別人去辦事,自己當然不需要實現了,但是委託別人必須要清楚自己想辦什麼事,這個...