線性與二次判別分析

2021-08-03 20:12:30 字數 2225 閱讀 9959

**:

與線性判別分析類似,二次判別分析是另外一種線性判別分析演算法,二者擁有類似的演算法特徵,區別僅在於:當不同分類樣本的協方差矩陣相同時,使用線性判別分析;當不同分類樣本的協方差矩陣不同時,則應該使用二次判別。

為了清楚的了解lda和qda的應用差異,下圖顯示了在固定協方差矩陣以及不同協方差矩陣下lda和qda的表現差異:

由圖中可以看出,在固定協方差矩陣下,lda和qda是沒有分類結果差異的(上面兩張圖);但在不同的協方差矩陣下,lda和qda的分類邊界明顯存在差異,而且lda已經不能準確的劃分資料(下面兩張圖)。

那麼,協方差矩陣是什麼?

在統計學中,有幾個描述樣本分佈的基本指標,例如均值、方差、標準差、峰度、偏度、最大值、最小值、極值等,這些都描述的是乙個維度;如果乙個樣本存在多個維度,除了可以單獨描述每個維度的分布規律外,如何描述不同維度間的關係?

協方差就是用來描述維度間關係的乙個指標。它的定義為:任意兩個隨機變數x和y的協方差,記為cov(x,y),定義為:

cov(x,y)=e

其中e(x)、e(y)反映分量x、y各自的均值。它反映的是任意兩個隨機變數(或者是任意兩個維度) 間的關係:

總結x和y之間的規律就是,當兩個隨機變數傾向於沿著相同趨勢變化時為正協方差,反之則為負協方差。

但我們知道,不同維度間可能由於值本身存在量級的差異而導致結果的偏差,例如訂單金額的單位可能是萬元區間,而使用者等級可能只是10以內的數字分布。為了消除這個差異性,需要對協方差進行標準化,而標準化後的指標即相關係數(通常用p表示),其矩陣被稱為相關性矩陣。

相關系統p的基本意義如下:

那麼,當p=0呢?難道意味著不相關?——當p=0時,意味著x和y不存**性相關關係,但可能存在其他相關關係。

注意:假設我們現在又3個維度,協方差只能顯示任意2個維度的關係,如何把這3個維度顯示在同時顯示出來?——這時,就要用到矩陣,即協方差矩陣。

下面舉例說明協方差和相關係數。 現在有乙個觀測資料集,其中包含三個維度(年齡、等級和購買金額),樣本量為5,現在要對其求協方差和相關係數。

年齡等級

購買金額413

8,084271

1,983401

10041

1221242

7,816

我們可以直接使用spss進行求解,得到以下結果:

結果反映出,年齡和等級之間的協方差是0.550,相關係數為0.073,年齡和購買金額之間的協防差是-11055.77,相關係數為-0.329。同樣的,我們也可以直接讀出其他任意維度和其他2個維度的協方差以及相關係數。

回歸本文的主體qda,以下是python的sklearn的qda進行二次判別分析。

#coding:utf-8   

from sklearn import datasets

from sklearn.qda import qda

iris = datasets.load_iris()

x = iris.data[:-5]

pre_x = iris.data[-5:]

y = iris.target[:-5]

clf = qda()

clf.fit(x, y)

pre_y = clf.predict(pre_x)

#**目標分類結果

print ('predict value:', pre_y)

其執行結果如下:

('predict value:', array([2, 2, 2, 2, 2]))

qda可配置的引數包括:

class sklearn.qda.qda(priors=none, reg_param=0.0)

尾巴python機器學習庫中的qda不具有lda和pca的降維功能,只能用來做分類**,對於協方差的求解則很容易使用numpy中的cov進行求解。

sklearn 1 2 線性和二次判別分析

線性辨別分析 discriminant analysis.lineardiscriminantanalysis 和二次辨別分析 discriminant analysis.quadraticdiscriminantanalysis 是兩個經典的分類器,正如它們名字描述的那樣,分別是乙個線性和乙個二次...

線性判別分析 線性判別分析總覽

線性判別分析總覽 linea r discriminant analysis,lda 用於資料預處理中的降維 分類任務,其目標是找到能夠最大化類間區分度的座標軸成分。用幾個詞概括lda的特徵,即降維 分類。假設一批患者使用同一種腫瘤藥,一些人效果良好 response 而另一些人無明顯療效 not ...

線性判別分析

linear discriminant analysis 線性判別分析 discriminant analysis.lineardiscriminantanalysis 和 quadratic discriminant analysis 二次判別分析 discriminant analysis.qu...