分類和聚類的區別

2021-07-27 19:31:04 字數 501 閱讀 3556

1.分類

在機器學習中,分類是一種有監督的學習,每個訓練資料都已經做好標籤,打上了標記。

比如**乙個人是否喜歡玩電腦遊戲的問題。給出的訓練資料的特徵值包含年齡,性別,收入等, 並且每條資料都標註上是否喜歡玩電腦遊戲。然後使用構建決策樹模型的相應演算法(id3,c4.5)訓練出分類模型。此過程就是在進行分類。

2.聚類

與分類相比較,聚類是一種無監督的學習。將本身沒有類別的資料樣本根據特徵值的的相似度進行歸類的方法。其實聚類還是為了分類。

其思想是將相似度近的資料歸為一類,記為簇(一組相似度大的資料物件集合)。當進行**時,可以看測試資料與哪一簇最相似就歸為哪一類。相似度的計算方法可以使用曼哈頓距離、歐幾里得距離、明考斯基距離等。常見的聚類演算法有 k-means。

3.補充:

分類的效果一般和資料的特點有關,有的資料雜訊大,有的有空缺值,有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合於各種特點的資料 。

分類和聚類的區別

分類 classification 是這樣的過程 它找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某...

聚類和分類的區別

分類 classification 是這樣的過程 它找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某...

分類和聚類的區別

1.有無監督學習 聚類是無監督學習 分類是有監督學習 2.含義 分類 已知資料集分為幾類每類是什麼,已有分類模型,並不斷訓練分類器,能把待分類的資料對映到預先給定的類別中。用於 性建模 對未來資料類別進行 和描述性建模 利用歷史資料推導出現有資料 聚類 事先不知道資料集的特徵,根據資料之間的相似性通...