聚類分析(
clustering analysis)
聚類作為資料探勘與統計分析的乙個重要的研究領域,近年來倍受關注。從機器學習的角度看,聚類是一種無監督的機器學習方法,即事先對資料集的分布沒有任何的了解,它是將物理或抽象物件的集合組成為由類似的物件組成的多個類的過程。聚類方法作為一類非常重要的資料探勘技術,其主要是依據樣本間相似性的度量標準將資料集自動分成幾個群組,且使同乙個群組內的樣本之間相似度盡量高,而屬於不同群組的樣本之間相似度盡量低的一種方法。聚類中的組不是預先定義的,而是根據實際資料的特徵按照資料之間的相似性來定義的,聚類中的組也稱為簇。乙個聚類分析系統的輸入是一組樣本和乙個度量樣本間相似度(或距離)的標準,而輸出則是簇集,即資料集的幾個類,這些類構成乙個分割槽或者分割槽結構。聚類分析的乙個附加的結果是對每個類的綜合描述,這種結果對於更進一步深入分析資料集的特性是尤其重要的。聚類方法尤其適合用來討論樣本間的相互關聯從而對乙個樣本結構做乙個初步的評價。資料探勘中的聚類研究主要集中在針對海量資料的有效和實用的聚類方法上,聚類方法的可伸縮性、高維聚類分析、分類屬性資料聚類、具有混合屬性資料的聚類和非距離模糊聚類等問題是目前資料探勘研究人員最為感興趣的。
聚類已經被廣泛應用於許多領域,例如生物學、藥學、人類學、市場營銷和經濟學。聚類應用包括動植物分類、疾病分類、影象處理、模式識別和文字檢索。例如,在商業方面,聚類分析可以幫助市場人員發現顧客群中所存在的不同特徵的群組,並可以利用購買模式來描述這些具有不同特徵的顧客組群。在生物學方面,聚類分析可以用來獲取動物或植物所存在的層次結構,可根據基因功能對其進行分類以獲得對人群中所固有的結構更深入的了解。聚類還可以從地球觀測資料庫中幫助識別具有相似的土地使用情況的區域,此外,還可以幫助分類識別網際網路上的文件以便進行資訊發現。
聚類分析是乙個富有挑戰性的研究領域,以下就是對資料探勘中聚類分析的一些典型要求:
(1)
可伸縮性
(scalability)
。實際應用要求聚類演算法能夠處理大資料集,且時間複雜度不能太高
(最好是多項式時間
),消耗的記憶體空間也有限。目前,為了將演算法拓展到超大資料庫
(vldb)
領域,研究人員已經進行了許多有益的嘗試,包括:增量式挖掘、可靠的取樣、資料擠壓
(data squashing)
等。其中,資料擠壓技術首先通過掃瞄資料來獲得資料的統計資訊,然後在這些統計資訊的基礎上進行聚類分析。比如
birch
演算法中使用
cf樹就是屬於資料擠壓技術。
(2)
能夠處理不同型別的屬性。現實中的資料物件己遠遠超出關係型資料的範疇,比如空間資料、多**資料、遺傳學資料、時間序列資料、文字資料、全球資訊網上的資料、以及目前逐漸興起的資料流。這些資料物件的屬性型別往往是由多種資料型別綜合而成的。
(3)
能夠發現任意形狀的簇。
(4)
儘量減少用於決定輸入引數的領域知識。
(5)
能夠處理雜訊資料及孤立點。
(6)
對輸入資料記錄的順序不敏感。
(7)
高維性(high-dimensional)
。乙個資料集可能包含若干維。較高的維數給聚類分析帶來兩個問題:首先,不相關的屬性削弱了資料匯聚的趨勢,使得資料分布非常稀疏。儘管這種情況在低維空間中並不多見,但是隨著維數的增加,不相關屬性的出現概率及數量也會增加,最後導致資料空間中幾乎不存在簇。其次,高維使得在低維中很有效的區分資料的標準在高維空間中失效了。如在高維空間中,資料點到最近鄰點的距離與到其他點的距離沒有多少分別,從而導致最近鄰查詢在高維空間中不穩定,此時若根據接近度來劃分簇,結果是不可信的。
(8)
能夠根據使用者指定的約束條件進行聚類。
(9)
聚類結果具有可解釋性和可用性。
上述的要求使目前聚類分析研究的熱點集中在設計能夠有效、高效地對大資料庫進行聚類分析的方法上。相關的研究課題包括:聚類方法的可擴充套件性、複雜形狀和複雜資料型別的聚類分析及其有效高效性、高維聚類技術,以及混合數值屬性與符號屬性資料庫中的聚類分析方法等。
參考文獻:
1. jain a k, murty m n, flynn p j. data clustering: a review. acm computing surveys, 1999, 31(3): 264-323.
2. xu rui, donald wunsch
ⅱ, survey of clustering algorithms, ieee transactions on neural networks, 2005, 16(3): 645-678.
3. omran m g h, engelbrecht a p, salman a. an overview of clustering methods. intelligent data analysis, 2007, 11, 583-605
聚類分析(一) 什麼是聚類分析
將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...
聚類分析(一) 什麼是聚類分析
將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...
聚類分析筆記
1.什麼是聚類 定義 將無力或抽象物件的集合分組成為由類似的物件組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組資料物件的集合,這些物件與同乙個簇中的物件彼此相似,與其他簇中的物件相異。與分類的區別,分類是有指導學習 類數目已知 聚類是無指導學習 類數目未知 典型應用 商務上,分析不同的客戶群,...