分類與聚類的區別

2021-08-03 02:38:19 字數 2158 閱讀 5903

利用分類技術可以從資料集中提取描述資料類的乙個函式或模型(也常稱為分類器classifier),並把資料集中的每個物件歸結到某個已知的物件類中。從機器學習的觀點,分類技術是監督學習,即每個訓練樣本的資料物件已經有類標識,通過學習可以形成表達資料物件與類標識間對應的知識。所謂分類,簡單來說,就是根據資料的特徵或屬性,劃分到已有的類別中

分類作為一種監督學習方法,要求必須事先明確知道各個類別的資訊,並且斷言所有待分類項都有乙個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量資料的時候,如果通過預處理使得資料滿足分類演算法的要求,則代價非常大,這時候可以考慮使用聚類演算法。

∙ 決策樹分類法

∙ 基於規則的分類器

∙ 樸素的貝葉斯分類演算法(native bayesian classifier)

∙ 基於支援向量機(svm)的分類器

∙ 神經網路法

∙ k-最近鄰法(k-nearest neighbor,knn)

∙ 模糊分類法

簡單地說就是把相似的東西分到一組,聚類的時候,我們並不關心某一類是什麼,我們的目標只是把相似的東西聚到一起。聚類分析就是將資料劃分成有意義或有用的組(簇)。因此,乙個聚類演算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練資料進行學習,即unsupervised learning (無監督學習)。聚類分析僅根據在資料中發現的描述物件及其關係的資訊,將資料物件分組。其目標是,組內的物件相互之間是相似的,而不同組中的物件是不同的。

∙ 乙個好的聚類方法要能產生高質量的聚類結果——簇,這些簇要具備以下兩個特點:高的簇內相似性、低的簇間相似性

∙ 聚類結果的好壞取決於該聚類方法採用的相似性評估方法以及該方法的具體實現;

∙ 聚類方法的好壞還取決於該方法是否能發現某些還是所有的隱含模式;

劃分聚類(partitional clustering):劃分聚類簡單地將資料物件集劃分成不重疊的子集,使得每個資料物件恰在乙個子集。

層次聚類(hierarchical clustering):層次聚類是巢狀簇的集族,組織成一棵樹。

互斥聚類(exclusive clustering):每個物件都指派到單個簇。

∙ ∙

模糊聚類(fuzzy clustering):每個物件以乙個0(絕對不屬於)和1(絕對屬於)之間的隸屬權值屬於每個簇。換言之,簇被視為模糊集。

完全聚類(complete clustering):完全聚類將每個物件指派到乙個簇。

部分聚類(partial clustering):部分聚類中資料集某些物件可能不屬於明確定義的組。如:一些物件可能是離群點、雜訊。

明顯分離的(well-separated):每個點到同簇中任一點的距離比到不同簇中所有點的距離更近。

基於原型的:每個物件到定義該簇的原型的距離比到其他簇的原型的距離更近。對於具有連續屬性的資料,簇的原型通常是質心,即簇中所有點的平均值。當質心沒有意義時,原型通常是中心點,即簇中最有代表性的點。基於中心的(center-based)的簇:每個點到其簇中心的距離比到任何其他簇中心的距離更近。

基於圖的:如果資料用圖表示,其中節點是物件,而邊代表物件之間的聯絡。簇可以定義為連通分支(connected component):互相連通但不與組外物件連通的物件組。基於近鄰的(contiguity-based)簇:其中兩個物件是相連的,僅當它們的距離在指定的範圍內。這意味著,每個物件到該簇某個物件的距離比到不同簇中任意點的距離更近。

基於密度的(density-based):簇是物件的稠密區域,被低密度的區域環繞。

(共同性質的)概念簇(conceptual clusters):可以把簇定義為有某種共同性質的物件的集合。此情況下,聚類演算法都需要非常具體的簇概念來成功檢測這些簇,發現這些簇的過程稱作概念聚類。然而,過於複雜的簇概念將涉及模式識別。

references:

[1]

聚類與分類區別

分類 classification 找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。分類和...

分類與聚類

1.分類是指有監督的學習,即要分類的樣本是有標記的,類別是已知的,事先定義好類別 類別數不變 2.按照某種標準給物件貼標籤 label 再根據標籤來區分歸類。3.分類的目的 是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。4.分類器需要由人工標...

分類與聚類的本質區別

機器學習中有常見的兩類大問題,乙個是分類,乙個是聚類。聚類分析是研究如何在沒有訓練的條件下把樣本劃分為若干類。在分類中,已知存在哪些類,即對於目標資料庫中存在哪些類是知道的,要做的就是將每一條記錄分別屬於哪一類標記出來。聚類需要解決的問題是將已給定的若干無標記的模式聚集起來使之成為有意義的聚類,聚類...