利用機器學習演算法挖掘群控網路黑產裝置

2021-10-10 14:59:53 字數 2060 閱讀 1926

群控,是黑產團夥中一種比較流行的作弊工具,可以批量操作多台手機。黑產團夥使用群控裝置的一般流程是,自動化註冊、登入、操作,從業務行為上偽裝成正常的使用者,不斷重複操作使得獲利最大化。

前面介紹的多種手段都可以用來防控群控,包括欺詐情報、裝置指紋和決策引擎風控規則等。需要注意的是,這幾類識別群控的技術手段都非常依賴專家經驗,對已知的群控樣本和通用的技術特徵有比較好的防控效果,但是無法快速發現未知的風險和新型工具。黑產團夥作案手段變化較快,當專家經驗驅動的防控規則開始上線使用時,業務往往已經遭受了一定的欺詐損失。所以採用機器學習方法自動識別新型欺詐攻擊手段、挖掘欺詐使用者背後的群控裝置是一種新的探索思路。

運用機器學習挖掘群控網路的過程如下:

1、資料來源

各業務系統的資料經常以不同形式儲存,需要將多種**資料統一成同一種格式。

2、業務字段

資料是機器學習任務的重要基礎,需要從要解決的業務問題出發選擇可能用到的資料字段。根據使用者在不同場景下的行為,我們確定了演算法需要使用的資料字段標準,然後通過各種方式採集業務系統產生的資料,並按照統一的格式進行儲存、關聯和整合處理。

挖掘黑產群控團夥。我們在實踐中需要通過裝置指紋或其他技術手段採集裝置環境資訊,包括移動裝置的品牌、型號、系統、版本及網路環境資訊(ip、閘道器)等。除此之外,演算法也會使用業務資料和業務系統日誌等,從不同維度更全面的覆蓋裝置行為資料。

3、資料標籤

演算法通常從不同角度出發,去學習資料自身的規律和特點。樣本資料中是否有標籤,標籤樣本的佔比多少,決定了演算法模型的選擇。如果完全沒有標籤,則使用無監督模型;如果有少量標籤,則使用半監督模型;如果有較多標籤,則使用有監督模型。當採用監督模型時,演算法根據已知的標籤資訊進行學習,不斷優化目標函式,得到恰到好處的模型,最終在測試樣本上進行**。

在建立黑產群控團夥的演算法識別模型過程中,我們通過業務人員獲取了少量的疑似群控黑產的樣本,所以可以選擇半監督模型或無監督模型。

經過資料歸集整合等準備工作,我們擁有了乙份完整的使用者行為日誌資料,在建模之前,需要先對這份資料進行質量評估工作。

1、總體概覽

統計乙個月中使用者行為記錄條數的總體走勢,整體資料分布均勻。

2、資料質量

資料非空有效性是後續特徵選擇的重要參考依據。

3、資料預處理

在資料質量評估之後,需要對異常資料進行處理,主要包括某些欄位的缺失值處理和異常值處理

1)缺失值處理

常見的缺失值處理方法又:

2)異常值處理

異常值檢測可以有以下3種方法:

異常值處理主要有以下兩種方法:

1、聚類演算法可行性

基於對群控技術的理解,我們在實踐中選擇了一種可擴充套件的事件相似聚類演算法來發現使用群控的黑產團夥。黑產團夥在相同環境下使用了比較相似的裝置,通常採用一台電腦控制多個裝置的模式,所以在裝置行為上存在相似性,這是乙個非常適合聚類演算法的欺詐場景。為了防止被風控規則發現和攔截,黑產團夥會通過正常業務行為、修改裝置引數等手段進行偽裝潛伏和自我保護。但是因為成本原因,黑產團夥使用的網路資源往往是有限的,所以會呈現ip、wifi環境的聚集性。而通過人工或指令碼修改移動裝置引數才能實現改機,通常難以覆蓋全特徵維度,並且在大批量操作裝置時又產生了新的行為相似性。

因此,使用聚類演算法總能在特徵維度上找到黑產團夥相似性,發現隱藏在這些相似行為的群控網路。

2、聚類演算法流程

我們設計的聚類演算法主要通過相似計算和圖劃分實現聚類分群。

1)相似計算

資料流入相似計算模組,首先兩兩比較裝置行為之間的相似性。在本演算法中支援自定義的相似性定義,可以配置在特定特徵維度上使用特定的相似衡量尺度。然後濾除相似性較低的連邊,得到有欺詐嫌疑的裝置關係。

在計算相似性時,同一裝置之間可以按照不同的緯度多次計算相似性。

2)圖劃分

在經過剪枝之後的圖中,我們經過連通圖演算法可以得到緊密關聯的裝置網路。

3、結果展示

通過聚類後,我們得到了疑似的群控裝置分組列表。通過進一步的分析這批裝置的更大時間跨度上的行為資料,我們發現這些裝置多次在相近的時間切片、相近的網路環境上出現了大量的一致性行為,確認是黑產團夥進行「養號」的行為使用的高風險群控裝置。

從已確認黑產團夥使用的高風險群控裝置上,可以進一步學習更多的欺詐特徵,通過不斷迭代後投入生產使用,在實際業務中取的了較好的應用效果。

機器學習與資料探勘演算法 kMeans演算法

k 平均演算法源於訊號處理中的一種向量量化方法,現在更多作為一種聚類分析方法流行於資料探勘領域。聚類是一種無監督學習,它將相似的物件歸到同乙個簇中。簇內的物件越相似,聚類的效果越好。聚類與分類最大的不同在於,分類的目標事先已知,聚類則不一樣。k 均值是發現給定資料集的k個簇的演算法。簇個數k是使用者...

機器學習演算法與Python學習 資料探勘過關40題

1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?a.關聯規則發現 b.聚類 c.分類 d.自然語言處理 2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?a 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。b 描述有多少比例的小偷給警察抓了的標準。...

機器學習與資料探勘相關演算法彙總

普通最小二乘回歸 olsr 線性回歸 linear regression 邏輯回歸 logistic regression 逐步回歸 多元自適應回歸樣條法 mars 區域性估計平滑散點圖 loess k臨近演算法 knn 學習向量量化演算法 lvq 自組織對映演算法 som 區域性加權學習法 lwl...