工作 風控 無監督聚類和有監督聚類的思考

2021-07-24 17:22:44 字數 2080 閱讀 4331

最近被調到了新的專案裡的風控部,主要負責專案的交易行為的風控,也就是對客戶的交易行為進行識別並進行反欺詐,使用的方法主要是資料探勘裡的聚類,未來可能還會使用到時間序列或其它方法,而我個人則希望有一天能夠使用深度學習的方法。

由於專案尚未上線,所以目前主要是利用部分無標記的資料進行反欺詐模型的探索——模型預構建。而在探索的過程中,則發現了一些問題,主要是兩大問題:一、使用無監督聚類還是有監督聚類,二、能否使用有監督聚類主要取決於什麼?

所以下面也主要圍繞這兩個問題進行思考和討論。

一、使用無監督聚類還是有監督聚類?

因為這個專案對於我們公司來說是個新的專案,也是乙個新的模式,所以造成的乙個很嚴重的問題就是:我們沒有任何相關的資料積累!就連我們的模型預構建也是使用的是別人的資料且該資料也沒有標記,更別說歷史資料和對歷史資料進行標記(本文的標記都指的是標記是否是欺詐客戶)了,換言之,我們在前期是根本不可能有任何有標記的資料的。

所以我們只能夠選無監督聚類了嗎?但是無監督聚類也有它自身的問題:

1、無監督聚類只能夠聚類成指定數量的類,但卻不能夠說明每乙個類到底代表著什麼,而我們是希望能夠找出有欺詐嫌疑的客戶,如果我們不知道每乙個類代表著什麼,自然也就意味著我們無法確定哪個類的客戶才是有欺詐嫌疑的。

2、在 1 的問題中,我們可以假設有欺詐嫌疑的人是人數最少的那個類或者幾個類,並命名為欺詐類客戶或欺詐類。該假設是由假設我們的專案裡正常的客戶要遠多於不正常的客戶(此處的不正常的客戶並不完全等同有有欺詐嫌疑的客戶),並定義這樣的市場是乙個正常市場,同時定義其為市場初始假設,所推導出來的,並定義其為欺詐假設。其可靠性同時依賴於市場初始假設和欺詐假設。但是欺詐假設存在特殊情況,即可能存在區別於正常客戶的不正常客戶,且由於該類人在人類總體中佔少數的原因,導致其在我們的聚類中即使被聚類了其數量也會極少。

在欺詐假設的條件下,我們可以繼續下一步的工作了。但是此時又會遇到另乙個問題,該問題同樣是由缺乏標記所衍生出來的:在欺詐假設的條件下,我們可以確定人數最少的那個類(或者幾個類,也不考慮特殊情況)是有欺詐嫌疑的客戶,但是確定裡面真的是欺詐的客戶有幾個呢?我們在這裡定義乙個名為欺詐識別準確率,並簡記為識別率的公式:識別率 = 識別正確總數  / (識別正確總數 + 識別錯誤總數) * 100%

由公式可見在欺詐嫌疑類的客戶總數一定的情況下,識別率取決於識別正確總數,而確定識別正確總數則取決於標記,而現在我們並沒有有標記的資料。

解決這一問題的方法,我想到的但並未實踐的是:由人工來對欺詐類客戶進行人工鑑別和標記,同時積累標記的資料。但是這一方法真的完美嗎?或者說在資金成本和時間成本上可接受嗎?

對於這個問題的**,引出了我們的第二個問題。

二、能否使用有監督聚類主要取決於什麼?

上面做法其實質是無監督聚類和有監督聚類的結合,並最終使用有監督聚類。但問題是有監督聚類,在資金成本和時間成本上可接受嗎?因為我無法接觸到我們專案的專案預算資金方面的資訊,故在此僅討論時間成本。

毫無疑問,人工標記是需要相當長的時間的,這個過程中所耗費的時間即是我們的時間成本,並記為標記時間成本。因為成本具有可分攤性,即可將標記時間成本平均分攤到我們整個專案的生命週期裡,因此如果總標記時間成本是較小的話,此處定義總標記時間成本等於在整個專案生命週期中每一次的標記時間成本相加,那麼很大可能,即不考慮其可能花費非常多的時間的情況,對於我們來說是可接受的。

在此我們考慮乙個問題:即欺詐客戶的欺詐模式是否會變化很快,以及我們的風控策略(主要體現在模型的迭代上)隨之快速變化,並定義其為對坑性。欺詐客戶的欺詐模式變化越快,我們的風控策略變化越快,則對坑性也越強,反之則弱。

在對坑性強弱這個基礎上,我們可以這樣來思考總標記時間成本的問題。在對坑性弱的情況下,我們模型迭代速度相對而言不會太快,又由第乙個問題中得到我們的模型取決於標記,而標記時間成本的更新又取決於標記次數,故而總標記時間成本也不會太高。而相反的是,在對坑性強的情況下,總標記時間成本則會相當高。

故而,是否適合使用有監督聚類取決於對坑性的強弱。

而關於對坑性強弱的問題則既取決於我們風控的技術能力和反應速度,也取決於欺詐客戶,而欺詐客戶公升級其欺詐模式則既取決於我們風控的技術能力和反應速度,也取決於我們的交易平台的盈利空間,即欺詐客戶在我們平台上進行欺詐的期望收益。由於後者更多地關於經濟學方面,故在此不說。

準備等老闆有空後,再找他討論一下這個問題,希望能夠有新的認識和找到能夠切實解決我們目前的問題的方法。到時可能會再更新

無監督聚類演算法

劃分聚類 k means 聚類 k means演算法,也被稱為k 平均或k 均值,是一種廣泛使用的聚類演算法,或者成為其他聚類演算法的基礎。k means 對初值敏感,可以使用 k mediods聚類 k 中值聚類 選擇較好的聚類初值 k means 演算法,不同與k means演算法隨機選擇聚類中...

無監督學習 聚類

聚類是針對給定的樣本,根據據他們特徵的相似度或者距離,將其歸併到若干個 類 或 簇 的資料分析問題。乙個類是樣本的乙個子集。直觀上,相似的樣本在相同的類,不相似的樣本分散在不同的類。目的是通過得到的 類 或 簇 來發現資料的特點或者對資料進行處理,在資料探勘 模式識別等領域有著廣泛的應用。屬於無監督...

無監督學習 聚類 K means聚類演算法

無監督學習 聚類 k means聚類演算法 以k為引數,把n個物件分為k個簇,使簇內具有較高相似度,簇間相似度較低 1.隨機選擇k個點作為初始聚類中心 2.根據剩下點與聚類中心的距離 預設就是歐氏距離 歸為最近的簇 3.對每個簇,計算所有點的均值作為新聚類中心 4.重複2 3直至聚類中心不變 31省...