架構 風控防刷策略。

2021-10-09 13:38:14 字數 3275 閱讀 7950

最近1~2年電商行業飛速發展,各種創業公司猶如雨後春筍大量湧現,商家通過各種活動形式的補貼來獲取使用者、培養使用者的消費習慣。

但任何一件事情都具有兩面性,高額的補貼、優惠同時了也催生了「羊毛黨」。

「羊毛黨」的行為距離欺詐只有一步之遙,他們的存在嚴重破環了活動的目的,侵占了活動的資源,使得正常的使用者享受不到活動的直接好處。

「羊毛黨」一般先利用自動機註冊大量的目標**的賬號,當目標**搞**、優惠等活動的時候,利用這些賬號參與活動刷取較多的優惠,最後通過**等電商平台轉賣獲益。

他們內部有著明確的分工,形成了幾大團夥,全國在20萬人左右:

這些黑產團隊,有三個特點:

對抗刷單,一般來講主要從三個環節入手:

例如,某個ip是惡意的ip,那麼該ip上可能會有一些正常的使用者,比如大閘道器ip。

再比如,黑產通過adsl撥號上網,那麼就會造成惡意與正常使用者共用乙個ip的情況。

我們以黑分類器為例來剖析下分類器的整個邏輯框架。

總的來講我們採用了矩陣式的邏輯框架,最開始的黑分類器我們也是一把抓,隨意的建立乙個個針對黑產的檢測規則、模型。

結果發現不是這個邏輯漏過了,而是那個邏輯誤傷量大,要對那一類的賬號加強安全打擊力度,改動起來也非常麻煩。

因此我們就設計了這個乙個矩陣式的框架來解決上述問題。

矩陣的橫向採用了adaboost方法,該方法是一種迭代演算法,其核心思想是針對同乙個訓練集訓練不同的弱分類器,然後把這些分類器集合起來,構成乙個最終的分類器。

而我們這裡每乙個弱分類器都只能解決一種帳號型別的安全風險判斷,集中起來才能解決所有賬戶的風險檢測。

那麼在工程實踐上帶來三個好處:

矩陣縱向採用了bagging方法,該方法是一種用來提高學習演算法準確度的方法,該方法在同乙個訓練集合上構造**函式系列,然後以一定的方法將他們組合成乙個**函式,從而來提高**結果的準確性。

上面講的部分東西,理解起來會比較艱澀,這裡大家先理解框架,後續再理解實現細節。

大資料一直在安全對抗領域發揮著重要的作用,從我們的對抗經驗來看,大資料不僅僅是資料規模很大,而且還包括兩個方面:

所以想要做風控和大資料的團隊,一定要注意在自己的產品上多埋點,拿到足夠多的資料,先沉澱下來。

我們的團隊研發了乙個叫魔方的大資料處理和分析的平台,底層我們整合了mysql、mongodb,spark、hadoop等技術,在使用者層面我們只需要寫一些簡單的sql語句、完成一些配置就可以實現例行分析。

這裡我們收集了社交、電商、支付、遊戲等場景的資料,針對這些資料我們建立一些模型,發現哪些是惡意的資料,並且將資料沉澱下來。

沉澱下來的對安全有意義的資料,一方面就儲存在魔方平台上,供線下審計做模型使用;另一方面會做成實時的服務,提供給線上的系統查詢使用。

畫像,本質上就是給賬號、裝置等打標籤。

使用者畫像 = 打標籤

我們這裡主要從安全的角度出發來打標籤,比如ip畫像,我們會標註ip是不是**ip,這些對我們做策略是有幫助的。

標籤的類別和明細,需要做風控的人自己去設定,比如:地理位置,按省份標記。性別,安男女標記。其他細緻規則以此規律自己去設定。

一般的業務都有針對ip的頻率、次數限制的策略,那麼黑產為了對抗,必然會大量採用**ip來繞過限制。

識別乙個ip是不是**ip,技術不外乎就是如下四種:

以上**ip檢測的方法幾乎都是公開的,但是盲目去掃瞄全網的ip,被攔截不說,效率也是乙個很大的問題。

實時系統使用c/c++開發實現,所有的資料通過共享記憶體的方式進行儲存,相比其他的系統,安全系統更有他自己特殊的情況,因此這裡我們可以使用「有損」的思路來實現,大大降低了開發成本和難度。

資料一致性,多台機器,使用共享記憶體,如何保障資料一致性?

其實,安全策略不需要做到強資料一致性。

從安全本身的角度看,風險本身就是乙個概率值,不確定,所以有一點資料不一致,不影響全域性。

適應的場景包括:

q:風險學習引擎是自研的,還是使用的開源庫?

風險學習引擎包括兩個部分,線上和線下兩部分:

線上:自己利用c/c++來實現。

線下:涉及利用python開源庫來做的,主要是一些通用演算法的訓練和調優。

q:請問魔方平台中用到的mongdb是不是經過改造?因為mongdb一直不被看好,出現問題也比較多。

我們做了部分改造,主要是db的引擎方面。

q:請問黑分類器和白分類器有什麼區別?

白分類器主要用來識別正常使用者,黑分類器識別虛假使用者。

q:風險概率的權重指標是如何考慮的?

先通過正負樣本進行訓練,並且做引數顯著性檢查;然後,人工會抽查一些引數的權重,看看跟經驗是否相符。

q:安全跟風控職責如何區分呢?

相比安全,風控的外延更豐富,更注重巨集觀全域性;針對乙個公司來講,風控是包括安全、法務、公關、**、客服等在內一整套應急處理預案。

q:如果識別錯了,誤傷了正常使用者會造成什麼後果麼?比如影響單次操作還是會一直失敗。

如果識別錯了正常使用者不會被誤傷,但是會導致體驗多加了乙個環節,如彈出驗證碼、或者人工客服核對等。

風控策略和模型的區別 風控策略概述

風控策略定義 信貸風控策略 主要是根據不同業務場景,針對目標客群,通過一系列規則,對客戶進行篩選和分 類,發現風險點 包括 信用卡欺詐 團夥窩案 高危使用者等 降低風險,同時降低成本 提公升效 率,實現反欺詐,授信,風險定價,催收等各階段目標。個人理解 風控經常與政策 策略 規則 模型 演算法這五個...

政策 定價 風控審批策略

政策與定價 1.不同應用場景下量化風控政策設定 市場主流產品 無定向用途貸款 信用貸款 2.定向用途貸款 商品貸款 無定向用途貸款申請流程 進件 審核 審核結果 授信 貸後管理 政策制定關注點 使用者准入設計,排除高危使用者後的目標客群 資料准入設計,必填項的要求與考量 個人資訊驗證,包括人臉 活體...

消費金融大資料風控架構

1.1 信用風險 根據銀行業的風險理論,信用風險是指借款人因各種原因未能及時 足額償還債權人或銀行貸款而違約的可能性。信用風險的風控重點在於,甄別客戶違約的原因究竟是還款能力,還是還款意願問題。如果客戶真的由於各方面的原因,暫時不具備還款能力,這是概率問題。即使發生了,處置起來也不會有什麼損失。而如...