大資料風控,如何判斷你是乙個「好人」?

2021-07-29 09:00:44 字數 3048 閱讀 6396

你只花了三分鐘在網上就填好了一張貸款申請表。轉身倒杯茶的功夫,機器就知道以多少利率貸多少錢給你了。你不好奇它在你轉身倒茶的時候,是怎麼快速作出判斷的嗎?

在網際網路金融行業,不少人都對「大資料風控」有一種迷思:認為只要資料夠「大」,就能有最牛的風控體系和行業最低的壞賬率。

這未免理解地過於簡單了。dt君最近專訪了金融服務集團pintec旗下智慧型信貸公司讀秒的科學決策總監任然。任然告訴dt君,其實做大資料風控是乙個挺細緻的事兒,大資料風控,重要的不是資料本身,而是對資料的理解。

類似的話,dt君之前也聽哈佛大學的gary king教授說過。king教授說,big data is not about the data——大資料的價值不在於資料本身,而在於它背後的資料分析。(哈佛教授:大資料,重要的不是資料 - 知乎專欄)

在專訪中,任然回答了大資料風控行業資料的**、風控模型如何建構、什麼樣的資料才會被視為「有用」、中美兩國在大資料徵信體系方面的不同等問題。在他看來,中國的大資料徵信體系的完善還有很長的路要走。

做大資料風控的公司,手頭的資料來源都差不多

我們做的業務,學名叫作「零售信貸」。簡單來說,我們會對應該給乙個人貸多少錢、貸多長時間作乙個評判,這個判斷100%是基於資料分析作出的。

外部資料的**包括:現在比較常見的八家個人徵信機構(dt君注:2023年1月,央行開始允許芝麻信用等8家機構開展個人徵信業務)。我們還會對接一些使用者銀行卡的字段資料,在使用者授權的前提下,我們會把這個卡的資訊和銀聯的相關資料去比對。

我們現在接入的外部資料有四五十家,但這不意味著這四五十家的資料都會被用到風控建模中去。如果它們提供的變數不完全是我們最想要的,我們會做一些聯合建模。現在市面上比較常規的做大資料風控的,資料來源都相差不大。

我們認為,資料本身價值很有限,只有理解資料後,把這些資料進行解釋,最後運用進去(實際應用),才是有價值的

理解風控資料:常打**訂花?給你一張「好人卡」

我覺得,做大資料風控的核心點在於:我們對資料的理解有多深。我們這群(做大資料風控的)人對資料要極其敏感,因此我們會花很多時間在變數上。

舉乙個我們和電商合作做變數的例子。我們可以通過這些合作看到使用者訂票的資訊、機票的資訊,比如公務艙、經濟艙這些資訊——這本身其實也能說明乙個人的基本經濟情況。

但是我們會做得更細,會繼續做一些疊加或衍生。比如我們也可以不看公務艙和經濟艙的區分,而看飛行每公里的消費單價。因為公務艙和經濟艙的**也會波動很大,有的時候經濟艙也有**票、公務艙也會有優惠活動,所以我們會看每公里的消費金額。

又比如同樣是基於近六個月的流水話單,我可以做出很多不一樣的變數。比如說使用者是否跟某某類的店打過**?打**的頻次怎麼樣?趨勢怎麼樣?

我們發現,如果使用者經常跟貸款中介打**,或者銀行催收中心打**,那使用者應該相對比較缺錢,或者是曾經有過違約的歷史。

相反,如果使用者經常給花店打**買花,說明他可能是個「好人」;如果經常給嬰兒店打**,說明他可能有孩子,有孩子的話一般比較穩定、也靠譜一些。

我們花非常多的時間去衍生這些變數,因為它更直接地反映了這個人的消費行為。當然,也有些時候,我們花了很多時間卻做了無用功,甚至90%我們做出來的變數都沒有用,但試錯篩選出哪怕只有不到10%的可用變數,最終風控效果才是最重要的。

做風控模型:又「藍領」又藝術的的活兒

說到做模型,我覺得這是個比較「藍領」的事兒,風險(控制)、建模這類工作還是需要非常細緻的。

但是做模型有時也比較「藝術」,因為這是乙個比較見仁見智的事情。

建模的第一步是你有很多底層的資料,然後在這些底層的資料上先衍生一些變數,這個變數可能是基於對乙個資料的一些個人的理解。

但是大部分的變數放到模型裡去,你可能會發現……比如,使用者是否打過110實際上在風險上沒有任何區分度,那這個變數我就不要了。但是有時在建模過程中,我們發現一些有意思的東西,會再回去衍生變數。

再比如,我們在看銀聯的消費資料和變數的時候,我會去看他在餐飲業消費的排名或區間。比如說,「使用者是否在夜間消費過多」是乙個比較好的變數。那接下來,我會考慮,是不是把餐飲消費再分成夜間和白天,或者類似的,我可以回過頭再進一步看——就是這乙個例子。

所謂夜間,指的是凌晨三四點鐘。夜間消費過多,要不就是你的工作性質就是這樣的,要不就是工作比較不穩定一些。這個也說得通。

社交資料用於風控:在美國不一定,在中國還挺有用

現在大家說的比較多的社交資料,用在比較大眾化的人群上,用處比較小;但是在一些特殊的客群上,社交資料可能很有用。

比如說美國有個叫作zestfinance的公司,zest研究的人群很多在fico(dt君注:美國一款廣泛使用的個人信用評分系統)裡是沒有分的。這裡補充乙個背景知識:我們常聽到的fico並不是徵信局,而是乙個做模型、做信用評分的公司。fico底層用的是美國三大信用局的資料(dt君注:美國三大徵信局分別是experian、equifax和transunion)。

有些人群,比如拉丁族裔、新移民群體,他們在fico裡沒有記錄或記錄很短,又或者他們的fico分基本上是沒有風險細分圖的,我們把這種情況叫做叫作thin file(dt君注:指缺少信用方面的資料)。這個群體比較小,但是細分領域如果能做得很好,其實也不錯。

中國和美國的情況有一點不同。美國三大信用局的信用資料已經覆蓋到了美國金融市場的大部分客戶。而中國央行雖然也有信用記錄,但是真正有比較完整的可用的記錄也就是3億多人。

中國的環境裡,社交資料還是非常有用的。我們在和芝麻信用方面交流的時候,他們也會說,如果你的朋友圈裡面芝麻分都是比較高的,他也會認為你是「好人」。

中國大資料應用的癥結:繞不開的「資料孤島」

目前,中國的大資料應用其實是處在比較初級的階段,包括徵信體系。央行的徵信體系首先覆蓋人群不夠多,其次很多機構也接不進去。

中國市場上,各行業其實不斷地在釋放新的資料,但卻還是乙個各自為政的狀態,比如說我是乙個基於資源型的(企業),可以拿到一些運營商類的資料,還有一些可能會拿到銀聯的資料,但是大家沒有把資料整合起來。

我不覺得中國的徵信體系近期內會到達像美國那樣的狀態。美國在出現三大徵信局的格局之前,就有上千家機構,最後大家才都整合了起來。中國的情況很難講,目前還不知道最後會是怎麼樣。

你是乙個好人

近幾天看了幾部電影,穿prada的女魔頭 墨攻 滿城盡帶 甲 還有 三峽好人 古代的也好,現代的也好,華麗的也好,巨集大的也好,看過就看過,印象不深了。只是 三峽好人 從一開始看到那些飽經滄桑的臉,就覺得心酸,看完了到現在還是覺得好像有什麼堵在心裡。細說起來,也沒什麼特別特別曲折的情節,都是平凡的人...

如何判斷乙個變數是陣列Array型別

var arr 1 2,3 console.log arr instanceof array truevar arr 1 2,3 console.log arr.constructor array truearray.isarray 1,2,3 true這個方法稍微繞了點彎,我們先看以下一下例子就明...

如何判斷乙個單鏈表是迴圈鍊錶

1.迴圈鍊錶的特點是收尾相接,沒有頭指標,也沒有尾指標。如果去遍歷迴圈鍊錶,則是死迴圈。2.這裡判斷迴圈鍊錶的方法是 用兩個指標,乙個指標是塊指標 跳乙個節點遍歷 遍歷快 p p netxt next 乙個指標逐步遍歷,慢指標。如果在遍歷當中,如果發現這兩個指標有可能是出現null指標的話,那邊它是...