Fisher準則函式

fisher 線性分類器由r.a.fisher在2023年提出，至今都有很大的研究意義，下面介紹fisher分類器的fisher準則函式

fisher準則函式

在模式識別的分類演算法中，大概可以分為兩類，一種是基於貝葉斯理論的分類器，該型別分類器也稱為引數判別方法，根據是基於貝葉斯理論的分類器必須根據所提供的樣本資料求出先驗概率和類概率密度函式的型別和引數；另一種是非引數判別方法，它傾向於由所提供樣本資料直接求出在某一準則函式下的最優引數，這種方法必須由分類器設計者首先確定準則函式，並根據樣本資料和該函式最優的原理求出函式的引數。基於貝葉斯理論的分類器對於設計者來說比較死板和原則，它必須知道類概率密度函式和先驗概率才能估算出判別函式，但是實際上樣本資料的類概率密度函式的型別和引數都是不知道的，這給引數判別方法帶來了麻煩；而非引數方法的優點在於，當設計者設計好準則函式之後，便可用樣本資料優化分類器引數，難點在於準則函式的設計，因此，兩種方法各有千秋，互為補充！

設樣本d維特徵空間中描述，則兩類別問題中線性判別函式的一般形式可表示成

在使用線性分類器時，樣本的分類由其判別函式值決定，而每個樣本的判別函式值是其各分量的線性加權和再加上一閾值w0。如果我們只考慮各分量的線性加權和，則它是各樣本向量與向量w的向量點積。如果向量w的幅度為單位長度，則線性加權和又可看作各樣本向量在向量w上的投影。顯然樣本集中向量投影的分布情況與所選擇的w向量有關。如下圖：

圖1紅色跟藍色分別為兩類樣本，顯然，從分類的角度來看，w1要比w2要好，因此，fisher準則函式的基本思路是

向量w的方向選擇應能使兩類樣本投影的均值之差盡可能大些，而使類內樣本的離散程度盡可能小。

為了給出fisher準則函式的數學定義，我們必須定義一些基本參量，如下：

1 樣本在d維特徵空間的一些描述量。

(1) 各類樣本均值向量mi

(2) 樣本類內離散度矩陣si與總類內離散度矩陣sw

注釋：類內離散矩陣si在形式上與協方差矩陣很相似，但協方差矩陣是一種期望值，而類內離散矩陣只是表示有限個樣本在空間分布的離散程度

2 在一維y空間

(1) 各類樣本均值

(2) 樣本類內離散度

在定義了上述一系列描述量後，可以用這些量給出fisher準則的函式形式。根據fisher選擇投影方向w的原則，即使原樣本向量在該方向上的投影能兼顧類間分布盡可能分開，類內樣本投影盡可能密集的要求，用以評價投影方向w的函式為：

顯然，準則函式的函式值跟總類內離散度成反比，跟樣本差值的均方成正比，也就說，兩類樣本的均值相差越大，函式值越大，反之，則越小，類內離散度越小，函式值越大，反之則越小。同一類的樣本，離散度應該要小。

前面已提到，在非引數判別分類方法中，首先必須確定準則函式（假設樣本是線性可分的），然後根據樣本集求出使得準則函式達到極值的分類器引數，對於線性分類器，其典型形式為：

最佳分類器引數的確定實際上就是求取上式達到極值的w, 因此令拉格朗日乘法運算元為：

上式對w求導得：

由上式見，這是典型的求取特徵值和特徵向量的問題。以下進行數學簡化：

因此得到：

實際上，我們只關心w的方向，其大小對分類結果沒有任何影響，從上式可以看到，（m1 - m2）為兩類樣本的均值向量，從兩類樣本被分的最遠的效果來看，那麼與向量(m1 - m2)平行的向量投影將兩類分的最開。但是如從使類間分得較開，同時又使類內密集程度較高這樣乙個綜合指標來看，則需根據兩類樣本的分布離散程度對投影方向作相應的調整，這就體現在對向量(m1 - m2)按作一

3、設計分類器的最後一步------確定w0

3.1、知道先驗概率p(w1)和p（w2）若知道先驗概率和各樣本數量，可以根據以下公式計算w0

3.2、若未知先驗概率，可以按照下式計算：

Fisher準則函式

fisher線性判別判別分析 Fisher判別

Fisher線性判別

輕鬆理解 Fisher判別

Fisher準則函式

fisher線性判別 判別分析 Fisher判別

Fisher線性判別

輕鬆理解 Fisher判別

相關推薦

fisher線性判別判別分析 Fisher判別