上期《判別分析概述》中我們提到,判別分析(discriminant analysis)是根據判別物件若干個指標的觀測結果判定其應屬於哪一類的資料統計方法,其中fisher判別一般用於指標為定量資料的兩類判別,bayes判別多用於指標為定量資料的多類判別,同時,兩者均可利用spss完成,但在運用和解讀過程中非常容易混淆,所以檸檬精建議讀者在簡單了解二者的基本原理後再進行實踐。
fisher判別,又稱典則判別(canonical discriminant),適用於兩類和多類判別。我們將結合兩類判別的問題,來介紹一下fisher判別的原理。
已知有a類和b類兩類觀察物件,a類有a例,b類有b例,分別記錄了x1,x2,……xm個觀察指標,我們稱這m個觀察指標為判別指標或變數。
fisher判別法就是找到乙個線性組合:
使得綜合指標z在a類的均數與b類的均數的差異盡可能大,而兩類的類內綜合指標的變異(s2a+s2b)盡可能小,也就是類間差異盡可能大,類內變異盡可能小,即使
達到最大,此時綜合指標的公式便稱為fisher判別函式,c1,c2,……,cm即為判別係數。
建立判別函式後,我們逐例計算出綜合指標zi,求得a類的均數、b類的均數及總均數,按照下式計算判別界值:
如果a類均值大於b類的話,最終的判別規則如下:
收集22例肝硬化患者的3個指標(腹水量x1,肝長徑x2,肝短徑x3)中心化、標準化後的資料,其中早期患者a類12例,晚期患者b類10例,如果讓我們做fisher判別:
step1找到乙個類間差異盡可能大,類內變異盡可能小判別函式,各係數通過合併協方差陣代入解方程可得,即z=-0.070x1+0.225x2-0.318x3;
step2 逐例計算綜合指標zi,計算出a類、b類的均數和總均數分別為1.428,-1.722,-0.004;
step3 確定界值,進行兩類判別zc=(1.428+1.722)/2=-0.147,那麼-0.147即為界值,z值高於-0.147即判別為a類,低於則判別為b類。
step4 判別效果評價,一般要求判別函式的誤判概率小於0.1或0.2才有應用價值。本例有4例錯判,那麼誤判概率為4/22=18.2%。
表 22例患者3項指標觀察結果
多類fisher判別原理與兩類fisher判別相似,假定有g類,就需要建立g-1個綜合指標的判別函式,儘管理論完備,但在判別規則那一步就相對複雜很多,所以我們一般不用fisher判別來做多類判別,故在此不做介紹。
小結fisher判別多用於指標為定量資料的兩類判別,是尋找乙個合適的線性組合,使得綜合指標在類間差異盡可能大,類內變異盡可能小,以達到判別目的。
Fisher線性判別分析
三 結果 四 在uci資料集上的iris和sonar資料上驗證演算法的有效性 iris資料3類,4維,150個資料 sonar資料2類,60維,208個樣本.訓練和測試樣本有三種方式進行劃分 三選一 1.將資料隨機分訓練和測試,多次平均求結果 2.k折交叉驗證 3.留1法 針對不同維數,畫出曲線圖 ...
LDA 線性判別分析 Fisher線性判別
1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...
Fisher判別分析
將高維度空間的樣本投影到低維空間上,使得投影後的樣本資料在新的子空間上有最小的類內距離以及最大的類間距離,使得在該子空間上有最佳的可分離性 可以看出右側投影後具有更好的可分離性。剛學完感覺兩個很類似,實際上兩個方法是從不同的角度來降維。pca是找到方差盡可能大的維度,使得資訊盡可能都儲存,不考慮樣本...