一、分類和聚類的區別
分類和聚類的概念是比較容易混淆的。
對於分類來說,在對資料集分類時,我們是知道這個資料集是有多少種類的,比如對乙個學校的在校大學生進行性別分類,我們會下意識很清楚知道分為「男」,「女」
而對於聚類來說,在對資料集操作時,我們是不知道該資料集包含多少類,我們要做的,是將資料集中相似的資料歸納在一起。比如**某一學校的在校大學生的好朋友團體,我們不知道大學生和誰玩的好玩的不好,我們通過他們的相似度進行聚類,聚成n個團體,這就是聚類。
按照李春葆老師的話說,聚類是將資料物件的集合分成相似的物件類的過程。使得同乙個簇(或類)中的物件之間具有較高的相似性,而不同簇中的物件具有較高的相異性。如下圖所示
二、 聚類的定義
我們這樣來對聚類進行定義。聚類可形式描述為:d=表示n個物件的集合,oi
表示第i(i=1,2,…,n)個物件,cx
表示第x(x=1,2,…,k)個簇,cx
íd。用sim(oi
,oj)表示物件oi
與物件oj
之間的相似度。若各簇cx
是剛性聚類結果,則各cx
需滿足如下條件:
其中,條件①和②表示所有cx
是d的乙個劃分,條件③表示簇內任何物件的相似度均大於簇間任何物件的相似度。
聚類的整體流程如下:
三、聚類的方法
根據定義我們知道,聚類,簡單的來說,是通過「臭味相投」的原理來進行選擇「戰友」的。
那麼這個「臭味相投」的原理或準則是什麼呢?
前人想出了四種相似度的比對方法,即距離相似度度量、密度相似度度量、連通性相似度度量和概念相似度度量。
3.1距離相似度量
距離相似度度量是指樣本間的距離越近,那麼這倆樣本間的相似度就越高。距離這個詞我們可以這麼理解,把資料集的每乙個特徵當做空間上的乙個維度,這樣就確定了兩個點,這兩個點間的「連線」直線就可以當做是它們的距離。一般有三種距離度量,曼哈頓距離、歐氏距離、閔可夫斯基距離,這三個距離表示方式都是原始距離的變形,具體形式如下:
因為相似度與距離是反比的關係,因此在確定好距離後可以設計相似函式如下:
其中,k-means演算法就是基於距離的聚類演算法
3.2密度相似度度量
密度相似度的出發點是「物以類聚,人以群分」,相同類別的物體往往會「抱團取暖」,也就是說,每個團體都會圍在乙個圈子裡,這個圈子呢,密度會很大,所以就有密度相似度度量這一考察形式。
密度是單位區域內的物件個數。密度相似性度量定義為:
density(ci
,cj)=|di
-dj|
其中di
、dj表示簇ci
、cj的密度。其值越小,表示密度越相近,ci
、cj相似性越高。這樣情況下,簇是物件的稠密區域,被低密度的區域環繞。
其中,dbscan就是基於密度的聚類演算法
3.3連通性相似度度量
資料集用圖表示,圖中結點是物件,而邊代表物件之間的聯絡,這種情況下可以使用連通性相似性,將簇定義為圖的連通分支,即圖中互相連通但不與組外物件連通的物件組。
也就是說,在同一連通分支中的物件之間的相似性度量大於不同連通分支之間物件的相似性度量。
3.4概念相似度度量
若聚類方法是基於物件具有的概念,則需要採用概念相似性度量,共同性質(比如最近鄰)越多的物件越相似。簇定義為有某種共同性質的物件的集合。
四、聚類的評定標準
說了這麼多聚類演算法,我們都知道,聚類演算法沒有好壞,但聚類之後的結果根據資料集等環境不同有著好壞之分,那麼該怎麼評價聚類的好壞呢?
乙個好的聚類演算法產生高質量的簇,即高的簇內相似度和低的簇間相似度。通常估聚類結果質量的準則有內部質量評價準則和外部質量評價準則。比如,我們可以用ch指標來進行評定。ch指標定義如下:
其中:
traceb表示簇間距離,tracew表示簇內距離,ch值越大,則聚類效果越好。
分類,聚類,回歸
聚類 所謂聚類,即根據相似性原則,將具有較高相似度的資料物件劃分至同一類簇,將具有較高相異度的資料物件劃分至不同類簇。聚類與分類最大的區別在於,聚類過程為無監督過程,即待處理資料物件沒有任何先驗知識,而分類過程為有監督過程,即存在有先驗知識的訓練資料集。聚類 clustering 是分類 class...
模式識別之聚類 聚類和分類的區別
高斯聚類 向量刻畫物件,矩陣刻畫運動,用矩陣和向量的乘法施加運動 矩陣的本質居然是運動的描述,線性空間的變化躍遷,選定一組基可以做一次線性變換,換一組基,變換又不同,物件變化等價於座標系的變換,也是座標的變換 幾乎所有的圖形學變化都是4x4的 數學分析的本質思想精華是 乙個物件可以表達為無窮多個合理...
聚類與分類區別
分類 classification 找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。分類和...