二、異常檢測方法應用
三、多變數的高斯分布
總結異常檢測首先不是檢測機器學習演算法中的異常,也不是乙個演算法,它指的是一種應用場景(剛開始時我也陷入這兩種猜測。。。)比如在工廠內生產一批零件,我們用高斯分布的方法來**新生產的零件的異常狀況。這就是本章學習的內容——異常檢測
正態分佈(normal distribution),也稱「常態分布」,又名高斯分布(gaussian distribution),最早由a.棣莫弗在求二項分布的漸近公式中得到。c.f.高斯在研究測量誤差時從另乙個角度匯出了它。p.s.拉普拉斯和高斯研究了它的性質。是乙個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。1、問題描述正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。其中u表示均值,σ表示標準差,那麼σ2則表示方差。
其中由於高斯分布是乙個概率模型,所以影象形成的面積(積分)等於1,而均值u則表示高斯分布的最大分布位置(函式的最大值),方差σ2影響函式的形狀(σ2越大正態分佈的約扁平)
x1表示引擎運轉時產生的熱量,x2表示引擎的振動,那麼繪製引擎的影象如下示。這裡的每個點、每個叉,都是你的無標籤資料。這樣,異常檢測問題可以定義如下:我們假設後來有一天,你有乙個新的飛機引擎從生產線上流出,而你的新飛機引擎有特徵變數xtest。所謂的異常檢測問題就是:我們希望知道這個新的飛機引擎是否有某種異常。這個就是異常檢測的應用場景。
2、演算法
我們上面也回顧了高斯分布的演算法,下面介紹異常檢測怎麼應用高斯分布求解。一旦我們獲得了平均值和方差的估計值,給定新的乙個訓練例項,根據模型計算 p(x)。其中我們選擇乙個ε,將p(x) = ε 作為我們的判定邊界,當p(x) > ε時**資料為正常資料,否則為異常
1、應用方式
異常檢測演算法是乙個非監督學習演算法,意味著我們無法根據結果變數 y 的值來告訴我們資料是否真的是異常的。例如:我們有 10000 臺正常引擎的資料,有 20 臺異常引擎的資料。 我們這樣分配資料:
6000 臺正常引擎的資料作為訓練集
2000 臺正常引擎和 10 臺異常引擎的資料作為交叉檢驗集
2000 臺正常引擎和 10 臺異常引擎的資料作為測試集
具體的評價方法如下:
根據測試集資料,我們估計特徵的平均值和方差並構建p(x)函式
對交叉檢驗集,我們嘗試使用不同的 ε 值作為閥值,並**資料是否異常,根據 f1 值或者查準率與查全率的比例來選擇 ε
選出 ε 後,針對測試集進行**,計算異常檢驗系統的f1值,或者查準率與查全率之比
2、異常檢測與監督學習比較
異常檢測和監督學習(logistics回歸)有點相似,下面的對比有助於選擇採用監督學習還是異常檢測
3、特徵選擇
對於異常檢測演算法,我們使用的特徵是至關重要的,下面談談如何選擇特徵:異常檢測假設特徵符合高斯分布,如果資料的分布不是高斯分布,異常檢測演算法也能夠工作,但是最好還是將資料轉換成高斯分布,例如使用對數函式: x = log(x + c),其中 c 為非負常數; 或者 x = xc, c為 0-1 之間的乙個分數等方法。
下圖中是兩個相關特徵, 洋紅色的線(根據 ε 的不同其範圍可大可小) 是一般的高斯分布模型獲得的判定邊界,很明顯綠色的 x 所代表的資料點很可能是異常值,但是其p(x)值卻仍然在正常範圍內。多元高斯分布將建立像圖中藍色曲線所示的判定邊界。
在多元高斯分布模型中,我們將構建特徵的協方差矩陣,用所有的特徵一起來計算 p(x)。我們首先計算所有特徵的平均值,然後再計算協方差矩陣:
原高斯分布模型被廣泛使用著,如果特徵之間在某種程度上存在相互關聯的情況,我們可以通過構造新新特徵的方法來捕捉這些相關性。如果訓練集不是太大,並且沒有太多的特徵,我們可以使用多元高斯分布模型。下面是應用高斯分布模型還是多變數的高斯分布模型的比較。
吳恩達《機器學習》課程總結 15 異常檢測
將正常的樣本繪製成圖表 假設可以 如下圖所示 當新的測試樣本同樣繪製到圖示上,如果偏離中心越遠說明越可能不正常,使用某個可能性閾值,當低於正常可能性閾值時判斷其為異常,然後做進一步的檢查。異常檢測常用於工業生產 異常使用者等實際場景中。以上這種方法叫密度評估 1 高斯分布也稱為正態分佈,其記為 2 ...
吳恩達機器學習筆記(12 異常檢測)
什麼是異常檢測?假想你是乙個飛機引擎製造商,當你生產的飛機引擎從生產線上流出時,你需要進行 qa 質量控制測試 而作為這個測試的一部分,你測量了飛機引擎的一些特徵變數,比如引 擎運轉時產生的熱量,或者引擎的振動等等。這樣一來你就有了乙個資料集,從 假如有一天,你生產了乙個新的飛機,那麼你想檢測這個飛...
吳恩達機器學習筆記 15 降維
本章重點講述了降維方法以及其中最主要的pca主成分分析的原理 使用 降維的第乙個作用就是進行資料的壓縮,解決磁碟和計算的問題。比如把二維資料降維到一維 或者資料從三維降維到2維。降維的另乙個作用就是進行視覺化,比如我們的資料有很多維度,如果想要在圖形上展示各個資料,分析其關係是很難的。那麼就可以把資...