0. 背景:
a. 硬規則的異常檢測容易被黑客繞過,並且無法應對0day攻擊;同時規則構造和維護成本高。
b. 引入機器學習技術,但是web入侵樣本稀少,變化多樣,對模型訓練造成難度
1. 思路:基於profile的方法,對正常訪問日誌建模,與正常流量不符的視為一場流量
2. 方法:
1)基於統計學習模型:對正常流量進行數值化特徵提取,分布統計,進行異常檢測。特徵包括:
a. 引數value長度
b. 字元分布:字元出現的頻率是否符合理論分布
c. 引數缺失
d. 引數資料
e. 訪問頻率:單ip訪問頻率、總訪問頻率
f. 訪問時間間隔
2)基於文字分析的機器學習模型:參考下圖,綠色為正常流量,紅色為異常流量。可以看到正常流量滿足「數字_字母_數字」的模式。借鑑文字序列模式建模,比較成功的是基於hmm的序列建模。
3)基於單分類模型:由於我們只有大量白樣本,因此考慮採用單分類模型,學習單類樣本最小邊界,邊界外為異常值。單分類方法有:
a. one-class svm
b. 深度自編碼機
4)基於聚類模型
機器學習案例 基於KNN手寫數字識別
演算法介紹 之前已經介紹過,簡單來說,k nn可以看成 有那麼一堆你已經知道分類的資料,然後當乙個新資料進入的時候,就開始跟訓練資料裡的每個點求距離,然後挑離這個訓練資料最近的k個點看看這幾個點屬於什麼型別,然後用少數服從多數的原則,給新資料歸類。演算法步驟 演算法步驟 step.1 初始化距離為最...
資料應用案例 基於使用者畫像的騰訊大資料防刷架構
1.羊毛黨角色 1 軟體製作團夥 開發黑產工具,如註冊自動機 刷單自動機等 2 簡訊代接平台 實現簡訊的自動接髮 3 賬號 團夥 養各類賬號,通過轉賣賬號獲利 4 刷單團夥 到各平台刷單,獲取優惠,然後通過第三方平台 優惠套現 2.對抗刷單的三個主要環節 1 註冊環節 識別虛假註冊的賬號 2 登入環...
機器學習入門 應用機器學習的建議
機器入門系列文章中,我已經根據課程,介紹了許多演算法,比如線性回歸 logistic回歸,以及神經網路,等等。而針對具體的問題,我們採取了某種演算法,實現後,發現效果不好,需要改進。有些時候需要增加資料量,有些時候則不需要 我們需要評估乙個模型的好壞,從而比較選出更優者 或者根據模型出現的問題,提出...