a 距離和相似度測量
這裡用的是基於先驗知識的個體分類準則。資料物件一般是用一組多維特指向量描述的,該特徵可以是定量的或者是定性的,是連續的或二值的(不連續的),是名詞性的或順序性的,這些性質決定了其相似度的度量法則。定義在資料組x上的不相似函式或距離函式必須滿足以下條件:1)對稱性2)正則性d(xi,xj)>=0 3)滿足三角不等式 4)自反性
類似的,相似函式定義為滿足下面條件:1)對稱性2)正則性3) 4)
ø 一般說來,距離函式用來度量連續特徵,而相似度度量在定性特徵變數中更有用。文中**是連續特徵的度量方法。
ø 對二值特徵也常用相似度度量。
ø 對於有多種狀態的名詞性特徵一種簡單的處理方法是把他們化成新的二值特徵,另一種更為有效的方法是應用文中的匹配準則,可以把連續特徵化成二值的然後用相似度度量,但這樣做會造成資訊丟失。
b 分級聚類
分級聚類演算法主要分為聚合演算法和分離演算法兩種。由於使用分離演算法得到的結果可能性有很多種,因此該演算法不常使用,常用聚合演算法。以下詳細介紹聚合演算法。步驟:
不同的距離準則有不同的方法,最簡單和最常用的方法包括單一連線法和完全連線法。單一連線法是兩類之間的距離是由距離最近的兩個不同類的物件決定的,而完全連線法是使用不同類物件間的最大距離來定義類間距離的。
經典分級聚類的缺點:缺乏穩定性,對雜訊干擾等敏感,某一點一旦分類難以更改,運算複雜度高使之難以在大量的資料中使用
c 基於平方錯誤率準則的聚類(向量量化)
就是使平方錯誤率最小。平方錯誤率準則定義為
也就是最小化類內距離,或最大化類間距離。
k均值演算法步驟:
存在的問題及其解決方法:
1.初始化2.尋求最優解 3.對雜訊敏感4.只能用於數字變數
d 基於混合密度的聚類
資料物件是由一些概率分布產生的。不同的概率分布可以產生不同類的資料點。這些概率密度可以概括成一些密度函式。如果資料分布已知,聚類就相當於估計潛在模型的引數。有時引數的似然函式直接優化十分困難,而引入額外的引數(隱含的或丟失的) 後就比較容易優化,於是定義原始觀測資料加上額外引數組成「完全資料」, 原始觀測資料自然就成為「不完全資料」,這就是em演算法
關於em演算法
比如說食堂的大師傅炒了乙份菜,要等分成兩份給兩個人吃,顯然沒有必要拿來天平一點一點的精確的去稱分量,最簡單的辦法是先隨意的把菜分到兩個碗中,然後觀察是否一樣多,把比較多的那乙份取出一點放到另乙個碗中,這個過程一直迭代地執行下去,直到大家看不出兩個碗所容納的菜有什麼分量上的不同為止。em演算法就是這樣,假設我們估計知道a和b兩個引數,在開始狀態下二者都是未知的,並且知道了a的資訊就可以得到b的資訊,反過來知道了b也就得到了a。可以考慮首先賦予a某種初值,以此得到b的估計值,然後從b的當前值出發,重新估計a的取值,這個過程一直持續到收斂為止。
em演算法的缺點是對初始引數的選擇比較敏感等。
e 基於圖論的聚類
click法
f 結合搜尋技術的聚類方法
缺點:引數選擇是問題
g 模糊聚類
模糊聚類中,乙個物件可以以某種程度屬於所有的分類。fcm中是使下式的值最小:
fcm的運算步驟如下,是使用歐幾里得距離:
缺點:對雜訊敏感,難以確定初始分類
改善方法:
h 基於神經網路的聚類
i 基於核方法的聚類
核方法是利用核函式將在觀察空間線性不可分的樣本非線性對映到高維的特徵空間而變得線性可分,這樣樣本特徵經很好地分辨、提取並放大後,可以實現更為準確的聚類。並且基於核的聚類演算法在類分布不為超球體或超橢圓體時依然有效。
聚類演算法學習
聚類是一種非監督學習方法 在乙個典型的監督學習中,我們有乙個有標籤的訓練集,我們的目標是找到能夠區分正 樣本和負樣本的決策邊界,在這裡的監督學習中,我們有一系列標籤,我們需要據此擬合一 個假設函式。與此不同的是,在非監督學習中,我們的資料沒有附帶任何標籤,我們拿到的 資料就是這樣的 在這裡我們有一系...
AP聚類演算法學習
最近看一篇 發現了這個聚類演算法,在網上找了點資料,怕自己忘了,在這裡將資料整理一下。宣告 下面這段文字 首先簡要介紹一下ap演算法,跟其他聚類演算法的不同之處是,ap在開始時,將所有節點都看成潛在的聚類中心,然後通過節點之間的通訊,去找出最合適的聚類中心,並將其他節點劃分到這些中心下去,所以我們可...
聚類演算法學習總結
聚類是無監督學習的一種,目的是為了對一組沒有標籤的資料,按照特定的特徵,把它們分成不同的類,換句話說,就是把這一組無標籤的的資料中,特徵相近的那些資料聚合成乙個類,聚合成的乙個類叫做乙個簇。按照資料分布的特點,採用的聚類方法可能會有所不同,常見的聚類演算法包含以下幾種 基於原型的聚類 對於聚類結果的...