聚類分析是資料探勘應用的技術之一,可以看作一種資料分析方法,也可以作為資料探勘技術的預處理。聚類演算法屬於無監督學習的範疇,不需要人為事先確定好聚類的類別,所以常常被用來對未知類別的資料(如電力日負荷曲線)進行劃分。聚類演算法通過一定的計算,把資料集劃分為不同的簇,旨在使同一簇內的資料相似性最高,簇與簇之間差距最大。
常見的聚類演算法可分為以下幾類:
(1) 劃分法:即通過不斷地迭代,使具有相似特徵的資料劃分為一類,具有不同特徵的資料劃分為另一類,直至滿足迭代終止條件,劃分結束。每個分組內都有物件,且每個物件只能在乙個分組內。
(2) 層次法:將資料集內的物件分解或合併,最終形成的結構具有層次結構的樹。其過程是將所有的資料放在乙個簇裡,通過某種策略將這個簇分成越來越小的分組,使同一分組內的資料離散度越來越小,直到分組滿足終止條件或稱為乙個單獨的簇。
(3) 基於密度的聚類:基於密度方法的聚類分析認為最終形成的聚類結果是由乙個聚集在一起的樣本點組成,這些資料物件分布緊湊,稱之為高密度區,處於這些簇間隙的資料物件分布相對零散,稱之為低密度區。演算法旨在將資料分布分散的區域與資料分布集中的區域分散開,從而找到聚類目標。
(4) 基於網格方法的聚類:將資料集分成若干個資料單元,以資料單元為最小單位進行聚類。此方法只需關心網格數,不需要關心資料集內物件本身。
(5) 基於模型的方法聚類:與數學模型結合,為每個聚類目標尋找乙個合適的數學模型,通過數學模型,將資料聚類。數學模型一般選擇基於概率密度分布的函式或者選擇體現相關性的函式。
資料在儲存時,會有各種不同的儲存形式,在聚類分析時需要通過某種方法來表示資料結構,以便於對資料進行處理。常見的表示方法就是矩陣,如:資料集內共有n個物件,每個物件具有m個數字屬性,則可用n×m的矩陣來表示。
聚類結果依賴於相似度的度量方式,常用的相似度度量有兩類:
(1) 使用距離公式度量
1)歐幾里得公式(歐式距離)
2)曼哈頓公式
3)馬氏距離
(2)使用相似性係數度量
1)夾角余弦
2)jacard係數
jacard係數通常用來表示集合與集合之間的相似性,公式如下,ti表示乙個集合。
簡單介紹了資料探勘中聚類分析的基本概念和常用聚類演算法的分類、演算法思想。
宣告:以上內容為在學習過程中的記錄,非原創。
聚類演算法基礎知識(更新中)
一 什麼是聚類 聚類分析就是在相似的基礎上收集資料進行分類。即將資料集按照資料之間的相似性劃分為由若干個相似物件組成的多個組或簇的過程,讓同一組 簇中的物件的相似度達到最大值,而不同組 簇的物件的相似度最小化。通過聚類分析,人們能夠發現資料全域性的分布模式以及資料屬性之間一些有趣的相互關係。二 聚類...
聚類演算法資料探勘(五) 聚類
首先宣告,我是乙個菜鳥。一下文章中湧現技術誤導情況蓋不負責 聚類是資料探勘描述任務的乙個主要組成部分。資料探勘任務包括描述性任務和 性任務兩種。描述性任務包括聚類 關聯分析 序列 異常檢測等,性任務包括回歸和分類。聚類 將資料物件分別為若干類,同一類的物件具有較高的相似度,不同類的物件相似度較低。從...
資料探勘 K Means聚類演算法
聚類分析是根據資料本身結構特徵對資料點進行分類的方法。實質是按照彼此距離 的遠近將資料分為若干個類別,以使得類別內資料的 差異性 盡可能小 即 同質 性 盡可能大 類別間 差異性 盡可能大。聚類的目標 將一組資料分成若干組,組 內資料是相似的,而組間資料是有較明顯 差異。與分類區別 分類與聚類最大的...