機器學習中有兩類的大問題,乙個是分類,乙個是聚類。
在我們的生活中,我們常常沒有過多的去區分這兩個概念,覺得聚類就是分類,分類也差不多就是聚類,下面,我們就具體來研究下分類與聚類之間在資料探勘中本質的區別。
分類有如下幾種說法,但表達的意思是相同的。
分類問題是用於將事物打上乙個標籤,通常結果為離散值。例如判斷一幅上的動物是乙隻貓還是乙隻狗,分類通常是建立在回歸之上,分類的最後一層通常要使用softmax函式進行判斷其所屬類別。分類並沒有逼近的概念,最終正確結果只有乙個,錯誤的就是錯誤的,不會有相近的概念。最常見的分類方法是邏輯回歸,或者叫邏輯分類。
分類演算法的侷限
分類作為一種監督學習方法,要求必須事先明確知道各個類別的資訊,並且斷言所有待分類項都有乙個類別與之對應。但是很多時候上述條件得不到滿足,尤其是在處理海量資料的時候,如果通過預處理使得資料滿足分類演算法的要求,則代價非常大,這時候可以考慮使用聚類演算法。
聚類的相關的一些概念如下
因為最近在研究者兩種演算法,也就剛好用來說一下分類和聚類不同的演算法。
svm與二分k均值演算法的區別之一:支援向量機(svm)是一種分類演算法,二分k均值演算法屬於一種聚類演算法。
在《資料探勘導論(完整版)》這本書第306頁中有這樣一句話:聚類可以看做一種分類,它用類標號建立物件的標記,然而只能從資料匯出這些標號。相比之下,前面所說的分類是監督分類(supervised classification):即使用有類標號已知的物件開發的模型,對新的、無標記的物件賦予類標號。為此,有時稱聚類分析為非監督分類(unsupervised classification)。在資料探勘中,不附加任何條件使用術語分類時,通常是指監督分類。
因此,svm與二分k均值演算法的區別之一:支援向量機(svm)是一種監督分類演算法,二分k均值演算法屬於一種非監督分類演算法。
機器學習中分類與聚類的本質區別
機器學習中有兩類的大問題,乙個是分類,乙個是聚類。在我們的生活中,我們常常沒有過多的去區分這兩個概念,覺得聚類就是分類,分類也差不多就是聚類,下面,我們就具體來研究下分類與聚類之間在資料探勘中本質的區別。分類有如下幾種說法,但表達的意思是相同的。分類演算法的侷限 分類作為一種監督學習方法,要求必須事...
分類與聚類的本質區別
機器學習中有常見的兩類大問題,乙個是分類,乙個是聚類。聚類分析是研究如何在沒有訓練的條件下把樣本劃分為若干類。在分類中,已知存在哪些類,即對於目標資料庫中存在哪些類是知道的,要做的就是將每一條記錄分別屬於哪一類標記出來。聚類需要解決的問題是將已給定的若干無標記的模式聚集起來使之成為有意義的聚類,聚類...
機器學習中分類和聚類的區別
在機器學習中有兩種常見的任務 分類 classification 和聚類 clustering 在初學機器學習時,對這兩個概念的理解容易混淆,隨著學習的深入,對這兩個概念有了基本的認識,現總結如下 1.分類 屬於監督學習的範疇,根據一些給定的已知類別的樣本,使它能夠對未知類別的樣本進行分類,要求必須...