線性判別分析 線性判別分析總覽

2021-10-12 17:00:18 字數 2056 閱讀 7500

線性判別分析總覽

( linea

r discriminant analysis,lda

):用於資料預處理中的降維、分類任務,其目標是找到能夠最大化類間區分度的座標軸成分。

用幾個詞概括lda的特徵,即降維、分類。假設一批患者使用同一種腫瘤藥,一些人效果良好(response),而另一些人無明顯療效(not response)。故我們需要利用一些特徵對患者進行分類(反應者 或 非反應者),使其接受針對性的接受**從而達到更好的療效。基於實踐,可能基因的表達特徵有助於患者分類。

①僅使用乙個基因的表達量對患者進行分類。該基因表達水平能較好地實現對腫瘤患者的分類,發現大部分反應者的該基因表達水平較低(左側),大分部非反應者的該基因表達水平較高(右側),但反應者與非反應者的該基於表達水平也有一定的重疊(中間)。

②使用兩個基因的表達水平對患者進行分類。基於兩個水平的分類能實現較好的腫瘤患者分類,大部分反應者對應gene x與y的表達水平低,大分部非反應者對應的gene x與y的表達水平較高,僅有絕少數患者的分類不準確。

③使用三個基因的表達水平對患者進行分類。在平面上很難辨認是否基於三個gene表達水平的分類能較好實現腫瘤患者分類。

④基於4個或者4個及以上的基因表達水平對患者進行分類,常規的4維及4維以上的圖形將會非常難辨別是否該方法能有效的實現患者分類。為了實現該目的,需要進行資料降維處理。但為了實現降維後,能夠更加準確的進行資料分類,需要使用的方法是線性判別分析(linear discriminant analysis,lda)。

lda: 同pca一樣,可以達到降低資料維度的效果。但其與pca又有顯著不同的區別,pca主要是根據具有最大表達的基因尋找資料的主要成分,而lda主要是基於如何能最大化不同類間的差異而進行資料降維,lda的主要作用的實現資料分類。

如下,將將2-d資料轉換成1-d資料,從而實現資料降維和分類。

乙個糟糕的做法是:忽略y軸或x軸資料,將資料直接投射到x軸或y軸。而lda則提供了乙個較好的思路,充分利用x軸與y軸的資料,建立新的座標軸(new axis),既實現資料維度的減少,又能實現對資料的良好分類。

2個類別的資料

簡單來說,就是不同類間的差異越大越好,相同類間的差異越小越好。結合兩個標準,用二者的比值進行量化,其值越大,說明分類的效果越好。

3個類別的資料

建立新座標軸的2個標準是一致的,即均最大化不同類間的差異,最小化相同類間的差異。但是也有一些差別:

資料的分類:因為需要將資料分為3類,故需要兩條相互垂直的直線進行分類。

在僅有兩個gene x與gene y(兩個變數的時候),新座標軸上的資料未做降維處理,其與原數資料一致。

> 3個類別的資料

如果有10000個基因的表達資料,並基於這10000個基因的表達將樣本分為3類。在這種情況下,就需要對資料進行降維處理。如下,利用lda分析將10000個gene表達資料降至2維。儘管該分類的結果並不是十分完美,但是lda也能較準確地將樣本分為3類。

二者均能實現多變數資料的降維。

lda與pca均能實現資料降維,從而有利於後續的分析。雖然二者具有很多相似之處,但是二者實現不同的目的,故在選擇資料降維時應結合自己的分析目的。本次筆記作為乙個簡單的介紹,如果想要更加深入的學習lda,請參考更多的資源。

校審:羅鵬

線性判別分析

linear discriminant analysis 線性判別分析 discriminant analysis.lineardiscriminantanalysis 和 quadratic discriminant analysis 二次判別分析 discriminant analysis.qu...

線性判別分析

需要注意一下,lda有兩種縮寫 一種是線性判別分析 linear discriminant analysis 一種是概率主題模型 隱含狄利克雷分布 latent dirichlet allocation 本文講的是前者。線性判別分析 linear discriminant analysis,lda ...

LDA 線性判別分析 Fisher線性判別

1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...