在機器學習中有兩種常見的任務:分類(classification)和聚類(clustering)。
在初學機器學習時,對這兩個概念的理解容易混淆,隨著學習的深入,對這兩個概念有了基本的認識,現總結如下:
1.分類:
屬於監督學習的範疇,根據一些給定的已知類別的樣本,使它能夠對未知類別的樣本進行分類,要求必須事先明確知道各個類別的資訊。
2.聚類:
屬於無監督學習的範疇,根據樣本間的某種距離或者相似性來定義聚類,即把相似的(或距離近的)樣本聚為同一類,而把不相似的(或距離遠的)樣本歸在其他類。
一般有三種距離度量,曼哈頓距離、歐氏距離、閔可夫斯基距離,公式如下:
機器學習中分類與聚類的本質區別
機器學習中有兩類的大問題,乙個是分類,乙個是聚類。在我們的生活中,我們常常沒有過多的去區分這兩個概念,覺得聚類就是分類,分類也差不多就是聚類,下面,我們就具體來研究下分類與聚類之間在資料探勘中本質的區別。分類有如下幾種說法,但表達的意思是相同的。分類演算法的侷限 分類作為一種監督學習方法,要求必須事...
機器學習中分類與聚類的本質區別
機器學習中有兩類的大問題,乙個是分類,乙個是聚類。在我們的生活中,我們常常沒有過多的去區分這兩個概念,覺得聚類就是分類,分類也差不多就是聚類,下面,我們就具體來研究下分類與聚類之間在資料探勘中本質的區別。分類有如下幾種說法,但表達的意思是相同的。分類問題是用於將事物打上乙個標籤,通常結果為離散值。例...
分類和聚類的區別
分類 classification 是這樣的過程 它找出描述並區分資料類或概念的模型 或函式 以便能夠使用模型 類標記未知的物件類。分類分析在資料探勘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某...