fisher 線性分類器由r.a.fisher在2023年提出,至今都有很大的研究意義,下面介紹fisher分類器的fisher準則函式
fisher準則函式
在模式識別的分類演算法中,大概可以分為兩類,一種是基於貝葉斯理論的分類器,該型別分類器也稱為引數判別方法,根據是基於貝葉斯理論的分類器必須根據所提供的樣本資料求出先驗概率和類概率密度函式的型別和引數;另一種是非引數判別方法,它傾向於由所提供樣本資料直接求出在某一準則函式下的最優引數,這種方法必須由分類器設計者首先確定準則函式,並根據樣本資料和該函式最優的原理求出函式的引數。基於貝葉斯理論的分類器對於設計者來說比較死板和原則,它必須知道類概率密度函式和先驗概率才能估算出判別函式,但是實際上樣本資料的類概率密度函式的型別和引數都是不知道的,這給引數判別方法帶來了麻煩;而非引數方法的優點在於,當設計者設計好準則函式之後,便可用樣本資料優化分類器引數,難點在於準則函式的設計,因此,兩種方法各有千秋,互為補充!
設樣本d維特徵空間中描述,則兩類別問題中線性判別函式的一般形式可表示成
在使用線性分類器時,樣本的分類由其判別函式值決定,而每個樣本的判別函式值是其各分量的線性加權和再加上一閾值w0。如果我們只考慮各分量的線性加權和,則它是各樣本向量與向量w的向量點積。如果向量w的幅度為單位長度,則線性加權和又可看作各樣本向量在向量w上的投影。顯然樣本集中向量投影的分布情況與所選擇的w向量有關。如下圖:
圖1紅色跟藍色分別為兩類樣本,顯然,從分類的角度來看,w1要比w2要好,因此,fisher準則函式的基本思路是向量w的方向選擇應能使兩類樣本投影的均值之差盡可能大些,而使類內樣本的離散程度盡可能小。
為了給出fisher準則函式的數學定義,我們必須定義一些基本參量,如下:
1 樣本在d維特徵空間的一些描述量。
(1) 各類樣本均值向量mi
(2) 樣本類內離散度矩陣si與總類內離散度矩陣sw
注釋:類內離散矩陣si在形式上與協方差矩陣很相似,但協方差矩陣是一種期望值,而類內離散矩陣只是表示有限個樣本在空間分布的離散程度
2 在一維y空間
(1) 各類樣本均值
(2) 樣本類內離散度
在定義了上述一系列描述量後,可以用這些量給出fisher準則的函式形式。根據fisher選擇投影方向w的原則,即使原樣本向量在該方向上的投影能兼顧類間分布盡可能分開,類內樣本投影盡可能密集的要求,用以評價投影方向w的函式為:
顯然,準則函式的函式值跟總類內離散度成反比,跟樣本差值的均方成正比,也就說,兩類樣本的均值相差越大,函式值越大,反之,則越小,類內離散度越小,函式值越大,反之則越小。同一類的樣本,離散度應該要小。
fisher線性分類器
fisher準則的基本原理 找到乙個最合適的投影軸,使兩類樣本在該軸上投影之間的距離盡可能遠,而每一類樣本的投影盡可能緊湊,從而使分類效果為最佳。假設有兩類樣本,分別為 x 1 和 x 2 則各類在d維特徵空間裡的樣本均值為 m i frac sum x k i 1,2 通過 omega 變換後,將...
線性分類器 Fisher線性判別
我們知道,基於樣本直接設計分類器需要三個基本要素 判別函式型別 分類器設計準則 尋優演算法。這裡我們討論的線性判別函式型別為 g x w tx w 0 採用不同的準則和不同的尋優演算法就會得到不同的線性分類器。一 線性判別函式 剛才我們說了,線性分類器的判別函式型是線性判別函式 g x w tx w...
Fisher線性判別
我們知道,基於樣本直接設計分類器需要三個基本要素 判別函式型別 分類器設計準則 尋優演算法。這裡我們討論的線性判別函式型別為 g x w tx w 0 採用不同的準則和不同的尋優演算法就會得到不同的線性分類器。一 線性判別函式 剛才我們說了,線性分類器的判別函式型是線性判別函式 g x wtx w0...