使用者分群與建模

2021-10-24 05:08:21 字數 2662 閱讀 5604

使用者分群是指根據某些規則將人群進行細分,細分之後的每類客戶具有明顯區別於其他群體的特徵。這樣就可以對同質客群單獨建模進行分析,從而提高模型的效能。通常情況下,基於客群細分的一套模型比乙個用於所有客戶的單模型通常可以提高5%到10%的效能。

一.分群目的

二.如何進行分群

三.場景示例

四.總結

一、分群目的

分群的目的是根據組內差異小、元件差異大的特性將客群進行細分,原理上類似於無監督的聚類。因為某些單一變數雖然對整體客群有鑑別力,但不一定對特定客群也具有鑑別力。比如,年齡這個變數對整體客群的好壞有區分度,如下圖:

但是如果將申請樣本分為高收入組和低收入組,情況變成下圖:

可以看到在高收入組中,各年齡區間的差異並不明顯,區分度並不強。因此如果能替每個分組找出適合的變數與模型,就可以大幅度提公升整體模型的效能。

二、如何進行分群

2.1 基於業務經驗

基於業務經驗是指按照歷史經驗法則先行找出可能有效的分群變數,之後再由統計分析結果驗證分群是否有效。如負債率低、dti低的優質客群、無借款記錄信用卡少的徵信類白戶、信貸賬戶多且歷史長無逾期的消費活躍年輕群體等。這種劃分方式就和使用者畫像類似,不過使用者畫像是用來做入模變數的標籤的,而客戶分群主要是用來建子模型。客戶分群後也可以作為入模變數,這就涉及到分群變數如何建模的問題,求是汪老師在文章中介紹過方法。

方案一:分群單獨建模

step 1. 對於n個分群單獨建立n個子模型。同時,根據不同分群的特點構造新特徵來提公升子模型效能。

step 2. 將子模型分數作為新的特徵x,以及原樣本的目標變數y,訓練乙個組合主模型。或者,將子模型分數校準到同一尺度,可以參考文章《信用評分卡模型分數校準》。

方案二: 加入分群變數

step 1. 加入分群變數,只訓練乙個模型。

step 2. 在模型選擇上:對於樹模型而言,自動選擇分群變數進行**群體來擬合;對於線性評分卡模型而言,增加新的維度,在高維空間進行擬合。

2.2 基於統計**

基於統計**的方法如決策樹、聚類分析,藉此找出對表現指標有**意義的分組變數。比如以下這個例子:

上圖使用好壞比作為衡量分組變數間風險輪廓的指標。好壞比的計算方式如下:

1.如果區間好壞比優於整體樣本,則:

g /b

inde

x=區間

好壞比/

整體好壞

比∗100g

g/b index=區間好壞比/整體好壞比*100g

g/bind

ex=區

間好壞比

/整體好

壞比∗1

00g2.如果區間好壞比低於整體樣本,則:

g /b

inde

x=整體

好壞比/

區間好壞

比∗100b

g/b index=整體好壞比/區間好壞比*100b

g/bind

ex=整

體好壞比

/區間好

壞比∗1

00b分組的過程需要滿足各分組均涵蓋足夠多的樣本進行模型開發(至少2%)、分組間好壞比有顯著差異(差距15以上)。

此外還有常見的無監督聚類方法有k-means、gmm(高斯混合模型)等。其中,k-means存在隨機選擇初始質心和需設定超引數k(目標簇數)等問題,容易導致分群不穩定的現象。gmm在實際聚類時的效果往往更好,其主要思想是樣本分佈可以分解為多個正態分佈的組合。(此段摘自求是汪老師的文章)

2.3 基於業務需求

一些不滿足觀察期時間視窗要求的變數以及不在目標客群之內的變數應該予以排除。以開發信用卡評分模型為例,如下圖:

左側往來期間不足5個月的,因無足夠期間的賬戶歷史資料作為自變數**,右側延滯客群適用於催收評分模型,因此只有信用開卡目前沒有延滯的客戶是目標客群。業務經驗與統計實證都表明全清戶與迴圈使使用者在風險程度和形態上有顯著差異。所以選擇客戶「是否使用迴圈」作為主要分組方式。

三.場景示例

利用額度使用率這一變數比較「無延滯客群」和「有延滯客群」兩個分組的表現,判定該分組方式是否合適。

在無延滯客群中,有超過70%的客戶集中在額度使用率小於25%,而在延滯客群中只有35%落在此區間,說明延滯客群的分布在往高額度使用率移動,絕大多數的延滯客戶有偏高的額度使用率。再以變數值26-40為例,無延滯分組顯示此類客戶表現較平均差1.28倍(好壞對比值128b),而延滯客群顯示此類客戶表現優於平均2.05倍(好壞對比值205g),因此額度使用率變數可以在不同分組中產生不同的分數。

四.總結

本文介紹了如何通過分群來提公升風控模型效能的基本方**,細節以及實踐方面仍有很多不足,感興趣的朋友可以讀一讀求是汪老師的文章利用樣本分群提公升風控模型效能。

使用者分群與區隔變數

使用者分群的目的是建立子模型,提高模型效能,區隔變數可以理解為用來分群的變數。知乎上無忌老師寫過分群變數的要求是各分箱之間的segment不一致,壞客戶比率需達到30 本文從業務策略應用的角度列出了各種策略下區隔變數,實際操作中可以配合評分卡進行策略制定,或者根據區隔變數作子模型和主模型。常用的區隔...

使用者分群初探

使用者分群,需要考慮具體的業務場景確定不同的分類規則。比如,根據業務流程進行細分,可借鑑aarrr模型 acquisition使用者獲取 activation使用者活躍 retention使用者留存 revenue使用者回報 refer使用者傳播 將使用者細分為註冊使用者 活躍使用者 留存使用者 下...

使用者分層和使用者分群

使用者分層和使用者分群都是將使用者分成不同的類別,以此來區別對待不同的使用者。使用者分層,是基於大方向的劃分,而使用者分群,則是將這些層次切分成更細的粒度。使用者分層和使用者分群示例 使用者分層的方法,簡單的用二八法則分層,常見的有金字塔模型 四象限法 使用者生命週期 aarrr模型等。其實使用者分...