在反欺詐場景中,知識圖譜聚合各類資料來源,逐步繪製出借款人的profile,從而針對性的識別欺詐風險。以乙個借款人舉例,借款人可以有身份證號,手機號,學歷等個人資訊,屬於個人的屬性資訊;而借款人可以有擔保人或是親屬好友,借款人與擔保人之間的關係(也就是邊edge)是被擔保與擔保的關係,借款人與其親屬好友之間的關係是父親、母親、同事、同學等關係;借款人也具有住址,銀行流水,工作單位等資訊。這些資訊可以來自於多個渠道,例如可以由借款人自己填寫,或是積累的歷史資料,或是資料提供商提供,或是在網際網路上獲得,甚至通過推理得到,往往具有冗餘性;資訊通過圖的形式鏈結,展示出借款人的profile。
1識別資料造假
當融合來自不同資料來源的資訊構成知識圖譜時,有一些實體會同時屬於兩個互斥的類別(例如同時在兩個不同的城市工作),或某個實體所對應的乙個property(同乙個人的住址)對應多個值,這樣就會出現不一致性,這個不一致性即可判定為潛在的可疑點。
通過這種不一致性檢測,我們利用繪製出的知識圖譜可以識別潛在的欺詐風險。在p2p行業,欺詐風險主要的騙術包括個人資訊造假、工作單位虛假、代辦包裝、虛假聯絡人、組團騙貸等。以識別資料造假為例,利用知識圖譜我們可以通過借款人的身份資訊pii(personal identify information),例如手機號或是身份證號,直接索引到個人的全部資訊,並以此與借款人的填寫資訊進行不一致性檢測;也可以通過借款人的其他資訊進行推理出其相關資訊進行驗證,舉乙個例子,我們可以通過借款人的身份證號和姓名可以獲得他的學歷資訊和年齡,通過學歷資訊和年齡可以推算出其工作年限,再根據其所在城市,行業,職位,結合網際網路上的招聘**資料推理出其薪水範圍,進而驗證他的收入水平;甚至可以通過不同借款人之間的同事關係,驗證其工作單位的真假。
2組團欺詐和代辦包裝
除了對資料造假進行驗證外,由於圖結構帶來的天然關聯檢索的特點,知識圖譜可以識別潛在的代辦包裝或是組團騙貸。我們利用徵信公司提供的欺詐資料,擁有的代辦包裝公司資料,網際網路公開欺詐黑名單,行業黑名單聯盟等資料開發大量的標籤資料,對實體(包括公司和人)貼上標籤,例如逾期,虛假手機號,代辦包裝或是組團騙貸等標籤,當借款人進行申請貸款時,如果我們發現他和bad people/company/info具有較多的關聯關係,那麼這個人有很大的可能是欺詐,從而識別出風險。
與搜尋引擎的場景不同,知識圖譜在反欺詐場景中具有較低的應用門檻,資料量較少時也可以進行低程度的交叉驗證,而隨著資料量的積累和增多,知識圖譜也會越來越完善,其反欺詐能力也會越來越強。我們建立大資料反欺詐系統,在借款人提交借款申請開始即介入整個風控流程,對接多個資料來源以獲取借款人的資料資訊,在各個環節建立checkpoint,通過可配置的規則引擎在各個checkpoint執行預定的邏輯,識別和防禦欺詐風險。
3.反欺詐模型設計
first
通過社交 (同學圈,同事圈,親戚圈),手機通訊錄 評判
2 申請的記錄在已有的記錄有類似出現
· 2.1**號碼出現在已有放貸或申請記錄中
· 2.2身份證號碼出現在已有放貸或申請記錄中
· 2.3位址出現在已有放貸或申請記錄中
· 2.4qq號碼在已有放貸或申請記錄中
· 2.5同一郵箱已有放貸或申請記錄
· 2.6銀行卡號在已有放貸或申請記錄中
· 2.7同一車牌號在已有放貸或申請記錄中
3 黑名單 徵信
· 3.1 貸聯盟公布黑名單
· 3.2 人行徵信黑名單
· 3.3 徵信是否有逾期
金融反欺詐模型
整個專案做下來,感受最深的其實是如何從眾多的特徵中選出最實用的特徵變數。資料讀取,skiprows的含義表示跳過第一行,從第二行開始讀取 data pd.read csv g data loanstats 2016q2 loanstats 2016q2.csv skiprows 1,low memo...
反欺詐調研(1)
常見的場景 活動,比如拉新使用者,一些黑產薅羊毛。在使用具體的反欺詐策略前,需要分析每個使用者邀請新使用者數量的分布情況,確定哪些使用者可能存在欺詐行為,重點分析這些使用者。邀請新使用者數量在100個以上的使用者佔極少數 共31個 重點分析此類使用者。一 使用者裝置 網路識別策略 使用者使用的裝置和...
信用卡反欺詐
信用卡反欺詐 一 背景 反欺詐是一項識別服務,是對交易詐騙 網路詐騙 詐騙 盜卡盜號等行為的一項風險識別。其核心是通過大資料的收集 分析和處理,建立反欺詐信用評分和反欺詐模型,解決不同場景中的風險問題。二 資料集分析 資料樣本為2013年9月歐洲持卡人在兩天內進行的284,808筆信用卡交易,其中4...