1.(iv 資訊量 )在用邏輯回歸模型方法構建分類模型時候,需要對自變數進行篩選
使用資訊量 iv , 來衡量自變數的**能力。 資訊量越大 **能力越強,就越應該放入 模型中。
2.(woe值)是 iv值的基礎。 即 證據權重 weight of evidence.
woe 是對原始自變數的一種編碼形式。而要對乙個變數進行woe編碼 ,先要對變數進行分組處理(離散化、分箱等)。
woei =ln(pyi / pni)
pyi 表示組中 響應客戶佔所有響應客戶的比例,pni 表示組中未響應客戶佔所有未響應客戶的比例。
ivi = (pyi - pni) * woei
iv值如果小於 0.02 對**幾乎無幫助; iv 值 小於0.1 大於或等於 0.02 具有一定幫助。大於0.1就對**有較大幫助了。
3. 評分
知識點補充:
最大資訊熵增益_資訊、資訊熵、條件熵、互資訊,資訊增益、資訊增益比、基尼係數、相對熵、交叉熵,kl散度,woe,iv值,混淆矩陣(tpr,fpr,f1),roc,auc,ks曲線,ks值
sklearn構建svm分類模型及其模型評價
sklearn中常用的分類演算法 模組名 函式名 演算法名 1 linear model logisticregression 邏輯斯蒂回歸 2 svm svc 支援向量機 3 neighbors kneighborsclassifier k近鄰分類 4 bayes gaussiannb 高斯樸素貝...
Spark學習筆記 構建分類模型
spark中常見的三種分類模型 線性模型 決策樹和樸素貝葉斯模型。線性模型,簡單而且相對容易擴充套件到非常大的資料集 線性模型又可以分成 1.邏輯回歸 2.線性支援向量機 決策樹是乙個強大的非線性技術,訓練過程計算量大並且較難擴充套件 幸運的是,mllib會替我們考慮擴充套件性的問題 但是在很多情況...
模型構建 1 模型評估 分類問題
對模型的評估是指對模型泛化能力的評估,主要通過具體的效能度量指標來完成。在對比不同模型的能力時,使用不同的效能度量指標可能會導致不同的評判結果,因此也就意味著,模型的好壞只是相對的,什麼樣的模型是較好的,不僅取決於資料和演算法,還取決於任務需求。本文主要對分類模型的效能度量指標 方法 進行總結。本文...