iv(informaiton value)
iv的概念
iv全程是informaiton value,中文意思是資訊價值,或者資訊量。
在邏輯回歸、決策樹等模型方法構建分類模型時,經常需要對自變數進行篩選。比如我們有200個候選自變數,通常情況下,不會直接把2000個變數直接放到模型中去進行擬合訓練,而是會用一些方法,從這200個自變數中挑選一些出來,放進模型,形成入模變數列表,那麼如何挑選入模變呢?
挑選入模變數要考慮很多的因素,如「變數的**能力,變數之間的相關性,變數的簡單性(容易生成和使用),變數的強壯性(不容易被繞過),變數在業務上的可解釋性等」,但其中最主要和直接的衡量標準是變數的**能力
iv這一指標就是用來衡量自變數的**能力(衡量自變數對目標變數影響程度的指標),類似的指標還有資訊增益、基尼係數等
iv的直觀理解
假設在乙個分類問題中,目標變數的類別有兩類:y1,y2。對於乙個待**的個體a,要判斷a屬於y1還是y2,需要一定的資訊,假定資訊總量是i,而這些資訊蘊含在自變數c1,c2,c3...,cn中,那麼對於其中的乙個變數ci來說,其蘊含的資訊越多,那麼它對於判斷a屬於y1還是y2的貢獻就越大,ci的資訊價值就越大,ci的iv就越大,它就越應該進入到入模變數
iv的計算
要繼續iv的值,首先需要知道woe
woe的公式
同樣,對於分組i,也會有乙個對應的iv值,計算公式如下
有了乙個變數各分組的iv值,我們就可以計算整個變數的iv值,方法很簡單,就是把各分組的iv相加:
其中,n為變數分組個數(即分箱後有多少組)
woe(weight of evidence)
woe的全稱是「weight of evidence」,及證據權重,woe是對原始自變數的一種編碼形式
要對乙個變數進行woe編碼,需要首先對這個變數進行 分組處理(也叫離散化、分箱等)分組後,對於第i組,woe的計算公式如下
其中: 這組中響應客戶(風險模型中,對應的是違約客戶,總之,指的是模型中**變數取值為「是」或者1的個體)佔所有樣本中所有響應客戶的比例
: 這組中未響應客戶佔樣本中所有未響應客戶的比例
: 這個組中響應客戶的數量
: 這個組中未響應客戶的數量
: 是樣本中所有響應的數量
: 樣本中所有未響應的數量
從上述公式中看出,woe表示的實際上是「 當前分組中響應客戶佔所有響應客戶的比例」和「 當前分組中沒有響應的客戶佔所有沒有響應的客戶的比例」的差異
將公式進行變換
可以看出,woe可以這麼理解,當前 這個組中響應的客戶和未響應的比值,和所 有樣本中這個比值的差異。將這兩個比值在做比值,再取對數來表示。woe越大,這種差異越大,這個分組裡的樣本響應的可能性就越大,woe越小,差異越小
例項介紹iv的計算和使用
假設構建乙個**模型,該模型為了**公司的每個客戶對於某項營銷活動能夠響應,或者說要**的是客戶對我們這項營銷活動響應的可能性有多大,假設已經從公司客戶列表中隨機抽取了100000個客戶進行營銷活動測試,收集了這些客戶的響應結果,作為我們的建模資料集,其中響應的客戶有10000各,提取部分的變數作為模型的候選變數集:
a、最近乙個月是否有購買
b、最近一次購買金額
c、最近一筆購買的商品類別
d、是否是公司的vip客戶
假設,對變數進行了離散化(分箱),統計結果如下
(1)最近乙個月是否有過購買:
(2)最近一次購買金額:
(3)最近一筆購買的商品類別:
(4)是否是公司vip客戶:
計算woe和iv
以其中乙個變數「最近一次購買金額」變數為例
計算woe
將這個變數離散化為4各階段 <100元,[100,200],[200,500],>=500元,根據公司計算woe值
計算iv
計算變數總的iv值
woe值和iv值的特點
woe值特點
a、當前分組中,響應的比例越大,woe值越大
b、當前分組woe的正負,由當前分組響應和未響應的比例,與樣本整體響應和未響應的比例的大小關係決定
當前分組的比例小於樣本整體比例時,woe為負數
當前分組的比例大於整體比例時,woe為正
當前分組的比例和整體比例相等時,woe為0
c、woe的取值範圍是全體實數
進一步理解下woe,會發現,woe其實描述了變數當前這個分組,對判斷個體是否影響(或者說屬於哪個類)所起到影響方向和大小,當woe為正時,變數當前取值對判斷個體是否會響應起到正向影響,當woe為負時,起到了負向影響,而woe值的大小,則是這個影響的大小的體現。
iv的特點
a、對於變數的乙個分組,這個分組的響應和未響應比例與樣本整體響應和未響應的比例相差越大,iv值越大,否則,iv值越小
b、極端情況下,當前分組的響應變數和未響應的比例和樣本整體的響應和未響應的比例相等時,iv值為0
c、iv的取值範圍是[0,+ ∞ ],當前分組中只包含響應客戶或者為響應客戶時,iv = + ∞
iv值的比較和變數**能力的排序
已經計算出其中乙個了,其他的也類似,結果如下
a、最近乙個月是否有過購買:0.250224725
b、最近一筆購買的商品類別:0.615275563
c、是否是公司vip客戶:1.56550367
d、 最近一次購買金額的iv為0.49270645
這四各變數iv排序結果是這樣的:是否是公司vip客戶 > 最近一筆購買的商品類別 > 最近一次購買金額 > 最近乙個月是否有過購買,所以得出結論:「是否是公司的vip客戶」的**能力最高的變數,「最近乙個月是否有過購買」是**能力最低的變數。
關於iv和woe的進一步思考
為什麼用iv而不是直接用woe
(1)從公式上看iv和woe的差別在於iv在woe基礎上乘以的那個,我們暫且用pyn來代表這個值。
第乙個原因,當我們衡量乙個變數的**能力時,我們所使用的指標值不應該是負數,否則,說乙個變數的**能力的指標是-2.3,聽起來很彆扭。從這個角度講,乘以pyn這個係數,保證了變數每個分組的結果都是非負數,你可以驗證一下,當乙個分組的woe是正數時,pyn也是正數,當乙個分組的woe是負數時,pyn也是負數,而當乙個分組的woe=0時,pyn也是0
(2)乘以pyn後,體現出了變數當前分組中個體的數量佔整體個體數量的比例,對變數**能力的影響。怎麼理解呢?繼續看舉例
假設我們上面所說的營銷響應模型中,還有乙個變數a,其取值只有兩個:0,1,資料如下:
我們從上表可以看出,當變數a取值1時,其響應比例達到了90%,非常的高,但是我們能否說變數a的**能力非常強呢?不能。為什麼呢?原因就在於,a取1時,響應比例雖然很高,但這個分組的客戶數太少了,佔的比例太低了。雖然,如果乙個客戶在a這個變數上取1,那他有90%的響應可能性,但是乙個客戶變數a取1的可能性本身就非常的低。所以,對於樣本整體來說,變數的**能力並沒有那麼強。我們分別看一下變數各分組和整體的woe,iv。
從這個表我們可以看到,變數取1時,響應比達到90%,對應的woe很高,但對應的iv卻很低,原因就在於iv在woe的前面乘以了乙個係數,而這個係數很好的考慮了這個分組中樣本佔整體樣本的比例,比例越低,這個分組對變數整體**能力的貢獻越低。相反,如果直接用woe的絕對值加和,會得到乙個很高的指標,這是不合理的。
iv的極端情況以及處理方式
iv依賴woe,並且iv是乙個很好的衡量自變數對目標變數影響程度的指標。但是,使用過程中應該注意乙個問題:變數的任何分組中,不應該出現響應數=0或非響應數=0的情況。
原因很簡單,當變數乙個分組中,響應數=0時,
此時對應的ivi為+∞。
而當變數乙個分組中,沒有響應的數量 = 0時,
此時的ivi為+∞。
ivi無論等於負無窮還是正無窮,都是沒有意義的。
由上述問題我們可以看到,使用iv其實有乙個缺點,就是不能自動處理變數的分組**現響應比例為0或100%的情況。那麼,遇到響應比例為0或者100%的情況,我們應該怎麼做呢?建議如下:
(1)如果可能,直接把這個分組做成乙個規則,作為模型的前置條件或補充條件;
(2)重新對變數進行離散化或分組,使每個分組的響應比例都不為0且不為100%,尤其是當乙個分組個體數很小時(比如小於100個),強烈建議這樣做,因為本身把乙個分組個體數弄得很小就不是太合理。
(3)如果上面兩種方法都無法使用,建議人工把該分組的響應數和非響應的數量進行一定的調整。如果響應數原本為0,可以人工調整響應數為1,如果非響應數原本為0,可以人工調整非響應數為1.
信用評分模型
邏輯回歸模型 廣泛應用在申請評分 行為評分 市場響應 客戶流失等建模領域。決策樹模型 往往被用來做催收評分和客戶盈利模型。神經網路模型 用來防止申請和交易欺詐。信用評分的主要目的是估計消費者的信用情況 正常或違約 具體做法是根據酷虎的歷史資訊資料,利用合適的數學統計模型,得到消費者違約的概率值。客戶...
信用評分模型11111111
邏輯回歸模型 廣泛應用在申請評分 行為評分 市場響應 客戶流失等建模領域。決策樹模型 往往被用來做催收評分和客戶盈利模型。神經網路模型 用來防止申請和交易欺詐。信用評分的主要目的是估計消費者的信用情況 正常或違約 具體做法是根據酷虎的歷史資訊資料,利用合適的數學統計模型,得到消費者違約的概率值。客戶...
woe分析 資料分析和資料探勘的具體方法
資料的抽取要正確反應業務需求 資料抽樣 抽樣方法多種多樣,視具體場景使用。分析資料的規模有哪些具體的要求 重點是考量目標變數所對應的目標事件的數量。訓練集的資料量大概應該佔到樣本總資料量的40 70 1000個以上。自變數一般控制在8 20個以上。如何處理缺失值和異常值 缺失值的常見處理方法 異常值...