聚類分析是乙個迭代的過程
對於n個p維資料,我們最開始將他們分為n組
每次迭代將距離最近的兩組合併成一組
若給出需要聚成k類,則迭代到k類是,停止
計算初始情況的距離矩陣一般用馬氏距離或歐式距離
個人認為考試只考 1,2
比較有用的方法是3,4,5,8
最喜歡第8種
距離的計算
歐式距離
距離的二範數
馬氏距離
對於x1, x2 均屬於n(u, σ)
x1,x2的距離為 (x1 - x2) / sqrt(σ)
那麼不同的聚類方法其實也就是不同的計算類間距離的方法
1.最短距離法
計算兩組間距離時,將兩組間距離最短的元素作為兩組間的距離
2.最長距離法
將兩組間最長的距離作為兩組間的距離
3.中間距離法
將gp,gq合併成為gr
計算gr與gk的距離時使用如下公式
d2kr = 1/2 * d2kp + 1/2 * d2kq + β * d2pq
β是提前給定的超引數-0.25<=β<=0
4.重心法
每一組都可以看成一組多為空間中點的集合,計算組間距離時,可使用這兩組點的重心之間的距離作為類間距離
若使用的是歐氏距離
那麼有如下計算公式
d2kr = np/nr * d2kp + nq/nr * d2kq - (np*nq / nr*nr ) * d2pq
5.類平均法
兩組之間的距離 = 組間每兩個樣本距離平方的平均值開根號
表示式為d2kr = np/nr * d2kp + nq/nr * d2kq
6.可變類平均法
可以反映合併的兩類的距離的影響
表示式為d2kr = np/nr*(1- β) * d2kp + nq/nr *(1- β) * d2kq + β*d2pq
0<=β<1
7.可變法
d2kr = (1- β)/2 * (d2kp + d2kq) + β*d2pq
8.離差平方和法
這個方法比較實用
就是計算兩類距離的話,就計算,如果將他們兩類合在一起之後的離差平方和
因為若兩類本身就是一類,和本身不是一類,他們的離差平方和相差較大
離差平方和:類中每個元素與這一類中的均值距離的平方之和
若統一成之前的公式就是
d2kr = (nk + np)/(nr + nk) * d2kp + (nk + nq)/(nr + nk) -(nk)/(nr + nk) * * d2pq
一些性質
除了中間距離法之外,其他的所有聚類方法都具有單調性
單調性就是指 每次聚類搞掉的距離遞增
空間的濃縮和擴張
d(a)>=d(b) 表示a矩陣中的每個元素都不小於b
d(短) <= d(平) <= d(長)
d(短,平) <= 0
d(長,平) >= 0
中間距離法無法判斷
多元統計分析最短距離法 多元統計分析重點
多元統計分析重點宿舍版 第一講 多元統計方法及應用 多元統計 方法分類 按變數 模型 因變數等 多元統計分析應用 選擇題 資料或結構性簡化運用的方法有 多元回歸分析,聚類分析,主成分分 析,因子分析 分類和組合運用的方法有 判別分析,聚類分析,主成分分析 變數之間 與決策運用的方 法有 多元回歸,判...
多元統計分析 聯合分析
通過假定的產品具有某些特徵,對產品進行模擬,然後讓消費者根據自己的喜好來對虛擬產品進行評價,在利用統計方法將這些特徵的重要性與效用分離,從而得出對每一特徵以及特徵水平的重要程度做出量化評價。主要解決的問題 顯示屬性及其不同水平的相對重要性 顯示屬性不同水平間的最優組合 進行市場細分 模擬占有率 特徵...
多元統計分析 判別分析
判別分析是用一種統計的方法根據已有的資料集去分析新的資料屬於那一類的方法 適用於資料集較小的情況,因為資料量夠大的話神經網路的準確率會比傳統的判別分析高得多 距離判別法 歐氏距離 簡單的計算資料集中每一類的樣本均值 對於新資料,計算新資料與各類樣本均值的歐氏距離 取離此新資料距離最近的類別為此資料的...