分類與聚類

2021-08-28 21:04:57 字數 1128 閱讀 9196

1.分類是指有監督的學習,即要分類的樣本是有標記的,類別是已知的,事先定義好類別 ,類別數不變;   

2.按照某種標準給物件貼標籤(label),再根據標籤來區分歸類。

3.分類的目的:是學會乙個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。

4.分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。要構造分類器,需要有乙個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是乙個由有關字段(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有乙個類別標記。乙個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示字段值,c表示類別。

5.分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

6.分類適合類別或分類體系已經確定的場合。

1.聚類是指無監督的學習,樣本沒有標記,根據某種相似度度量把樣本聚為k類。

2.聚類是指事先沒有「標籤」   聚類則沒有事先預定的類別,類別數不確定

3.聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組資料物件的集合叫做簇,並且對每乙個這樣的簇進行描述的過程。它的目的是使得屬於同乙個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。

4.聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。

5.常見的聚類演算法包括:k-均值聚類演算法、k-中心點聚類演算法、clarans、 birch、clique、dbscan等。

6.聚類適合不存在分類體系、類別數不確定的場合

聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中乙個非常活躍的研究課題。

聚類與分類區別

分類 classification 找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。分類和...

分類與聚類區分

一次偶然的報告,老師無意的一句 不知道是聚類還是分類 猛然發現自己對分類與聚類也不能分的很清楚。把分類與聚類區別整理了下 分類 classification 找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多...

分類與聚類的區別

利用分類技術可以從資料集中提取描述資料類的乙個函式或模型 也常稱為分類器classifier 並把資料集中的每個物件歸結到某個已知的物件類中。從機器學習的觀點,分類技術是監督學習,即每個訓練樣本的資料物件已經有類標識,通過學習可以形成表達資料物件與類標識間對應的知識。所謂分類,簡單來說,就是根據資料...