《機器學習與安全》讀書筆記

2021-10-02 12:23:53 字數 1264 閱讀 7752

我看的是《machine learning and security》的翻譯版,原書應該是安全資料科學領域一本比較不錯的而且較為基礎的書,奈何翻譯的太差而且本人水平有限,對書中的許多內容了解的不多,而且書中的**部分並沒有自己親自實現,只是選取了安全領域的異常檢測、惡意軟體分析和網路流量分析三個部分做了筆記。希望在學習一段時間之後,能夠對之前不了解的內容有所掌握,並且實現一下書中的實戰部分。另外如果再讀此書的話,一定要讀英文版。

(1)ai for security分為兩類:模式識別和異常檢測

(2)shell命令可以形成乙個時間序列,因此可以從時間序列分析的角度進行異常檢測

(3)主機入侵檢測

(4)網路入侵檢測

檢查網路流量內容

(5)web應用程式入侵檢測

(6)異常檢測方法——**(監督學習)

(7)統計度量

import numpy as np

# input data series

x =[1,

2,3,

4,5,

6]# calculate median absolute deviation

mad = np.median(np.

abs(x - np.median(x)))

# mad of x is 1.5

(8)異常檢測方法——無監督學習

k均值(9)異常檢測方法——基於密度的方法

(10)入侵檢測面臨的問題

(1)惡意軟體類別劃分依據:family

(2)可以用靜態簽名匹配來判斷是否是惡意軟體

(3)使用機器學習進行惡意軟體分類的優勢

(4)使用機器學習進行惡意軟體分類的挑戰:特徵工程

(5)二進位制可執行檔案的特徵生成:

動態分析:執行程式分析(沙箱)

(6)程式請求許可權

(7)特徵選擇:

(1)無監督特徵學習:指的是從原始資料自動生成特徵,不同於無監督學習

(2)tsl/ssl資料報可以被解密

(3)攻擊分為被動攻擊和主動攻擊

(4)c&c伺服器控制殭屍網路,c&c伺服器的體系結構如下:

(4)使用nslkdd資料金構建網路攻擊分類**模型

我們的任務是設計乙個通用的分類器,將資料分為五類:4類攻擊+良性

類不平衡問題:訓練集中屬於r2l和u2l的資料佔比非常少,因此在測試集中對這兩類資料的分類效果極差,由於訓練集中benign資料佔比最大,因此這兩類資料大部分都被**為benign資料。

處理類不平衡的方法:

機器學習讀書筆記

第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...

周志華 機器學習 讀書筆記

分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...

《機器學習實戰》讀書筆記

監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...