演算法做了幾年,盡然在部落格上沒留下什麼腳印,主要寫部落格太麻煩了~,現在開始寫點系列文章,以示點憑證~,今天寫的是資料探勘的基本定理及原理:分類原理之判別分析。
從概率統計的角度來看,判別分析問題可歸結為:設有個組(或類或總體),所有組的樣品都有相同的個指標,可表示為乙個維向量,這組的分布函式為,均為維分布函式,對於給定的乙個新樣品,要求判斷它屬於哪個組。一般有距離判別、貝葉斯(bayes)判別和費希爾(fisher)判別
在統計學中,特別是多元統計,歐氏距離有時不太合適,需使用馬氏距離。
貝葉斯判別的引入:在兩組距離判別中,如果屬於組的樣品個數比屬於組的樣品個數多得多,那只根據樣品距離這兩組的遠近來判別其歸屬就有些不妥,即使比稍大些,人們往往傾向於判斷屬於組。因為判別之前他們已有了「先驗」的認識,即來自組比來自組有更大的先驗概率。先驗概率可以根據組的大小、歷史資料及經驗等加以確定,常常帶有一定的主觀性。利用先驗資訊來進行判別是貝葉斯判別的一大特點。
是公式,所以只能用了~
線性判別分析 線性判別分析總覽
線性判別分析總覽 linea r discriminant analysis,lda 用於資料預處理中的降維 分類任務,其目標是找到能夠最大化類間區分度的座標軸成分。用幾個詞概括lda的特徵,即降維 分類。假設一批患者使用同一種腫瘤藥,一些人效果良好 response 而另一些人無明顯療效 not ...
判別分析基礎
與聚類分析的比較 判別分析是判別樣品所屬型別的一種統計方法。判別分析與聚類分析不同,判別分析是在已知研究物件分成若干型別 或組別 並已取得各種型別的一批已知樣品的觀測資料。在實際中判別分析和聚類分析往往聯合起來用,當總體分類不清楚時,可先用聚類分析對原來的一批樣品進行分類,然後再用判別分析建立判別式...
高斯判別分析
1 多值正態分佈 多變數正態分佈描述的是n 維隨機變數的分布情況,這裡的 變成了向量,也變成了矩陣 寫作n 假設有n 個隨機變數x1 x2,xn。的第i 個分量是e x 而 ii var xi ij cov xi,xj 概率密度函式如下 其中 是 的行列式,是協方差矩陣,而且是對稱半正定的。當 是二...