多元統計分析 判別分析

2022-08-11 20:39:08 字數 1738 閱讀 8803

判別分析是用一種統計的方法根據已有的資料集去分析新的資料屬於那一類的方法

適用於資料集較小的情況,因為資料量夠大的話神經網路的準確率會比傳統的判別分析高得多

距離判別法:

歐氏距離

簡單的計算資料集中每一類的樣本均值

對於新資料,計算新資料與各類樣本均值的歐氏距離

取離此新資料距離最近的類別為此資料的類別

馬氏距離

馬氏距離的優點是考慮了各特徵之間的相互關係與尺度

馬氏距離的公式

當協方差陣為單位陣時,各特徵間無關,此時馬氏距離等於歐氏距離

對馬氏距離的具體分析在

具體做法

算出樣本對每一類的距離,(在馬氏距離中使用哪一類的均值和方差)

取距離最小的那一類即可

fisher判別法

fisher判別法是去找乙個過原點的直線這個直線要達到的效果是

具體做法:

w即為這條直線的方向

直線為y = wx

臨界點y0 = (n0 * u0 +  n1 * u1) / (n0 + n1)

貝葉斯判別法

書上的貝葉斯做法如下

對於兩個多元總體

第一類有n1個樣本,第二類有n2個樣本

q1 = n1 / (n1 + n2)

q2 = n2 / (n1 + n2)

第一類的均值為u1,第二類的均值為u2

根據總體計算出協方差矩陣σ

第i類樣本的判別函式為

fi(x) = ln(qi) - 1/2 ui.t * σ-1 * ui + x.t *  σ-1 * ui

然後對於所有點fi(x)做乙個softmax然後其中的最大值就是後驗概率

對於樣本來說

首先我要知道密度函式和先驗概率

對於k種分類先驗概率為qk, 密度函式為fk

那麼p(g|x)表示樣本為x的情況下,種類為g的概率

p(g|x) = qg * fg(x)   /   ∑ qi * fi(x)

找出那個最大的p(g|x)即可

一般來說 qg使用樣品頻率來代替

計算出g的均值和方差,fg(x)使用正太分布來代替

工業上貝葉斯判別法用的也比較多

但一般來說不是這麼用的

貝葉斯公式如下:

將其移項即可得到

p(gk|x) = p(x|gk) *  ∑p(xi|gi) / p(x)

對於多元變數x,我們假設x的各個特徵相互獨立 設x = (u1,u2, ,,,,,um)

那麼p(x|gk)  = p(u1|gk) * p(u2|gk) **** p(um|gk)

p(x) = p(u1)*p(u2)*.....*p(um)

概率就用樣本中的頻率表示即可

一些理解

距離判別法

歐式距離只考慮了樣本中心點的位置

馬氏距離不僅考慮了樣本中心點的位置,還考慮了樣本各個特徵間的相互關係以及樣本的度量

fisher判別法

利用一條過原點的判別函式,使得不同類別在判別函式上投影的距離盡可能大

使得同一類的距離盡可能小

貝葉斯判別法

利用樣本的先驗概率計算密度函式

再使用密度函式,計算特定點的後驗概率

多元統計分析 聯合分析

通過假定的產品具有某些特徵,對產品進行模擬,然後讓消費者根據自己的喜好來對虛擬產品進行評價,在利用統計方法將這些特徵的重要性與效用分離,從而得出對每一特徵以及特徵水平的重要程度做出量化評價。主要解決的問題 顯示屬性及其不同水平的相對重要性 顯示屬性不同水平間的最優組合 進行市場細分 模擬占有率 特徵...

多元統計分析最短距離法 多元統計分析重點

多元統計分析重點宿舍版 第一講 多元統計方法及應用 多元統計 方法分類 按變數 模型 因變數等 多元統計分析應用 選擇題 資料或結構性簡化運用的方法有 多元回歸分析,聚類分析,主成分分 析,因子分析 分類和組合運用的方法有 判別分析,聚類分析,主成分分析 變數之間 與決策運用的方 法有 多元回歸,判...

多元統計分析最短距離法 多元統計分析 聚類分析

聚類分析是乙個迭代的過程 對於n個p維資料,我們最開始將他們分為n組 每次迭代將距離最近的兩組合併成一組 若給出需要聚成k類,則迭代到k類是,停止 計算初始情況的距離矩陣一般用馬氏距離或歐式距離 個人認為考試只考 1,2 比較有用的方法是3,4,5,8 最喜歡第8種 距離的計算 歐式距離 距離的二範...