我看的是《machine learning and security》的翻譯版,原書應該是安全資料科學領域一本比較不錯的而且較為基礎的書,奈何翻譯的太差而且本人水平有限,對書中的許多內容了解的不多,而且書中的**部分並沒有自己親自實現,只是選取了安全領域的異常檢測、惡意軟體分析和網路流量分析三個部分做了筆記。希望在學習一段時間之後,能夠對之前不了解的內容有所掌握,並且實現一下書中的實戰部分。另外如果再讀此書的話,一定要讀英文版。
(1)ai for security分為兩類:模式識別和異常檢測
(2)shell命令可以形成乙個時間序列,因此可以從時間序列分析的角度進行異常檢測
(3)主機入侵檢測
(4)網路入侵檢測
檢查網路流量內容
(5)web應用程式入侵檢測
(6)異常檢測方法——**(監督學習)
(7)統計度量
import numpy as np
# input data series
x =[1,
2,3,
4,5,
6]# calculate median absolute deviation
mad = np.median(np.
abs(x - np.median(x)))
# mad of x is 1.5
(8)異常檢測方法——無監督學習
k均值(9)異常檢測方法——基於密度的方法
(10)入侵檢測面臨的問題
(1)惡意軟體類別劃分依據:family
(2)可以用靜態簽名匹配來判斷是否是惡意軟體
(3)使用機器學習進行惡意軟體分類的優勢
(4)使用機器學習進行惡意軟體分類的挑戰:特徵工程
(5)二進位制可執行檔案的特徵生成:
動態分析:執行程式分析(沙箱)
(6)程式請求許可權
(7)特徵選擇:
(1)無監督特徵學習:指的是從原始資料自動生成特徵,不同於無監督學習
(2)tsl/ssl資料報可以被解密
(3)攻擊分為被動攻擊和主動攻擊
(4)c&c伺服器控制殭屍網路,c&c伺服器的體系結構如下:
(4)使用nslkdd資料金構建網路攻擊分類**模型
我們的任務是設計乙個通用的分類器,將資料分為五類:4類攻擊+良性
類不平衡問題:訓練集中屬於r2l和u2l的資料佔比非常少,因此在測試集中對這兩類資料的分類效果極差,由於訓練集中benign資料佔比最大,因此這兩類資料大部分都被**為benign資料。
處理類不平衡的方法:
機器學習讀書筆記
第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...
周志華 機器學習 讀書筆記
分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...
《機器學習實戰》讀書筆記
監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...