1 一般資料聚類方法
聚類是乙個無監督的分類,它沒有任何先驗知識可用.
典型的聚類過程主要包括資料(或稱之為樣本或模式)準備、特徵選擇和特徵提取、接近度計算、聚類(或分組)、對聚類結果進行有效性評估等步驟.
聚類過程:
1) 資料準備:包括特徵標準化和降維.
2) 特徵選擇:從最初的特徵中選擇最有效的特徵,並將其儲存於向量中.
3) 特徵提取:通過對所選擇的特徵進行轉換形成新的突出特徵.
4) 聚類(或分組):首先選擇合適特徵型別的某種距離函式(或構造新的距離函式)進行接近程度的度量;而後執行聚類或分組.
5) 聚類結果評估:是指對聚類結果進行評估.評估主要有3種:外部有效性評估、內部有效性評估和相關性測試評估.
聚類大致分為層次化聚類演算法,劃分式聚類演算法,基於密度和網格的聚類演算法,基於模型的聚類演算法,等。
2 現有的高維聚類方法
在與高維資料相關的應用領域,緯度災難(curse ofdimensionality)是乙個非常普遍的現象,它指資料分析中遇到的由變數過多引起的一系列問題。
資料探勘領域對聚類演算法的研究已經取得了一定的成果,但很多傳統的聚類演算法在對一般的低維資料進行聚類處理是,通常能獲得較為準確的結果,而對高維資料,由於緯度災難引起的影響,若採用這些傳統的演算法進行聚類,往往得不到所期望的結果。為了滿足不同領域中眾多使用者的需求,研究者們提出了很多針對高維資料的聚類方法,主要包括基於降維的聚類,基於超圖的聚類,子空間聚類和聯合聚類。
2.1 降維聚類
直觀地講,將維就是通過把資料點對映到更低維的空間上尋求資料的緊湊的一種技術,這種低空間的緊湊表示有利於對資料的進一步處理。
降維作為目前很多研究領域的重要研究分支之一,其方法本身就多種多樣,根據降維方法的不同,形成了很多基於降維的聚類方法,如kohonen自組織特徵對映(sofm),主成分分析(pca)、多維縮放(mds),以及分形降維等。
無論採用什麼樣的降維方法對高維蘇匯聚進行聚類處理,其基本目的都是先根據相應的方法尋求高維資料等價的低維表示,然後再利用已有的傳統聚類方法都降維後的資料進行聚類處理,即用資料在低位空間中的聚類結果來表示高維資料的聚類特徵。不同的聚類方法,它們尋求高維資料的低維表示的方式不同,降維之後的資料與原始資料的近似程度也不同,從而它們的聚類效能也不同。
2.2 基於超圖的聚類
超圖是對常規圖的擴充套件,圖中的每條邊可以連線多個頂點,成為超邊。基於超圖的聚類方法把高維資料的關係對映到乙個超圖上,圖中的每一條變表達這些資料的關係,邊上的權值則表示相應關係到密切程度。在此基礎上,基於超圖的聚類方法實際上就是尋找超圖頂點的乙個劃分,並使得處於同乙個劃分中的資料盡可能地相關。
基於超圖劃分的聚類步驟可簡單地描述如下:
a)通過超圖定義乙個點(作為圖的頂點)與其他若干點相
連的條件;
b)定義圖中連線權重的度量;
c)根據一定的圖劃分演算法,尋找權重最小的超邊並從中斷開連線,從而將超圖劃分為兩個部分,每個部分作為乙個簇(類);
d)重複上述劃分,直至劃分出的簇達到某個特定的值,或所產生的新的劃分質量低於預設的閾值。
總的來說,基於超圖劃分的聚類演算法的關鍵思想在於,把高維資料空間中的資料處理問題轉換為圖劃分問題,通過構造特定超圖的最小生成樹來尋求高維資料的聚類。該方法最大的有點在於聚類的過程不同顯示地計算高維資料之間的相似度,因此演算法的時間複雜度僅為o(ndk),其中n為資料集的規模,d為資料點的緯度,k為聚類的個數。針對不同的應用領域和應用背景,研究者們也提出了很多基於超圖的聚類方法。
2.3 子空間聚類
子空間聚類又稱特徵選擇,它把原始資料空間劃分為不同的子空間,只在那些相關的子空間上考察聚類的存在。這些演算法一般使用貪心策略等搜尋方法搜尋不同的特徵子空間,然後使用一些標準來評價這些子空間,從而找到所需的簇。
典型的子空間聚類演算法有clique、enclus和mafia等。該類演算法都使用
apriori策略來查詢和合併某度量大於給定閾值的網格,產生候選子空間,並將這些候選子空間按其覆蓋即子空間中點數量的大小排序;隨後利用最小描述長度準則將規模較低的子空間剪枝。
3 現有典型高維聚類演算法效能分析
基於降維的高維聚類方法是對高維資料進行聚類處理的最為直觀的方法之一,其優點是易於理解、實現簡單,但其缺陷也是顯而易見的:首先,資料集中雜訊資料的存在是影響降維聚類效果的關鍵因素。在通過降維將原始高維資料對映到低維空間的過程中,同時也會縮小雜訊資料與「乾淨」資料之間的距離,從而不可避免地降低聚類的質量。而在很多應用領域中,通常很難在預處理過程清除雜訊資料的影響。
此外,基於降維的聚類從根本上說都是以資料之間的距離或相似度評價為聚類依據,當資料的維數不是很高時,這些方法效果較好,但當資料維度增高,聚類處理將很難達到預期的效果。原因在於:a)在乙個很高維的空間中定義乙個距離度量本身就是乙個很困難的事情;b)基於距離的方法通常需要計算各個聚類之間的距離均值,當資料的維度很高時,不同聚類之間的距離差異將會變得很小。
基於超圖的聚類方法的優點主要體現在兩個方面:a)通過該方法,可以在聚類的過程中迴避對高維資料之間相似度的計算,從而減小了維度災難對高維聚類的影響;b)利用該方法還可以根據特定使用者或領域的需求來控制聚類的質量,原因在於,利用apriori演算法中最小支援度的不同層次,超圖模型所表達的資料間的關係可以進行適當的調整,較高的支援度值對應包含資料點較少的更高質量的聚類,較低的支援度值則對應包含資料點較多的粗糙的聚類。
但是不容忽視的是,該演算法聚類效果的好壞與相應引數的選取有很大的關係。 首先,在尋找頻繁集時,支援度層次的確定與具體的應用領域密切相關;其次,對於連續變數,必須要對其離散化之後才能應用該演算法進行處理。而對連續屬性的離散化處理必然會導致資料間的某些關係的丟失,從而使得聚類結果與實際情況會偏差很大
子空間聚類從某種程度上來講與基於降維的聚類有些類似,但後者是通過直接的降維來對高維資料進行預處理,即在降維之後的某乙個特定的低維空間中進行聚類處理;而前者是把高維資料劃分成若干不同的子空間,再根據需要在不同的子空間中尋求資料的聚類。利用子空間聚類的思想,可以從多個角度、綜合考慮多方面的屬性來尋求資料的聚類。 但是在這類演算法中,子空間的劃分和選取也是乙個值得深入研究的重要問題。子空間劃分太多,不僅計算複雜度會很大,聚類的結果也會過於繁雜;子空間劃分太粗糙,則不能很好地避免維度災難
對聚類的影響。
4 超圖聚類演算法
在過去的幾十年裡,圖論已被證明是解決幾何、數論、運籌學和優化等領域中重要組合問題非常有用的工具。為了解決更多的組合問題,把圖的概念進行推廣是非常自然的事情。超圖概念是c.berge與2023年提出的。由於超圖理論比較抽象,研究者們很不容易入門,超圖理論的發展一直比較緩慢。近年來,隨著計算機的普及和積體電路規模的增大,超圖理論及其應用的研究越來越為人們所重視。
乙個超圖h=(v,e)包含乙個頂點集v和乙個超邊集e。把資料項建模成乙個超圖的關鍵問題是確定能被組成超邊的相關項和每個超邊的權重。
基於超圖模式高維空間資料聚類的主要思想是把乙個求解高維空間資料聚類問題轉換為乙個超圖分割訓優問題。
劉麗娜. 一種基於超圖模式的資料聚類方法[j]. 石家莊鐵路職業技術學院學報, 2005, 4(4):67-71.
賀玲, 蔡益朝, 楊徵. 高維資料聚類方法綜述[j].計算機應用研究, 2010,27(1):23-26.
聚類 簡述高維資料聚類
concept 聚類其實就是講乙個物件的集合分為由相似物件組成的多個類的過程。聚類與分類的區別在於,聚類劃分的類是不確定的,需要自身進行相似性比較,並且確定劃分的類。一般而言,對於聚類演算法的要求還是比較高的。而對於高維資料聚類的聚類演算法主要有兩種 子空間聚類 subspace clusterin...
高維資料軟子空間聚類FSC
一 針對問題 高位資料聚類存在兩個問題 高緯資料在距離計算上,任意兩點的距離都可能極為相近,導致難以將相似點和不相似點區分出來 高緯資料集的簇可能存在於不同的維度集合裡。二 文章的靈感 子空間聚類的推進 維數約減和特徵選擇背後的思路是 裁剪掉不重要的維度,實現從高維向低維空間的改變,以利於往後的聚類...
高維聚類結果視覺化
利用sklearn包裡的birch演算法,以iris資料集,聚類結果視覺化 如下 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets.samples generator import make blobs ...