本週要去給培訓班的學員總結機器學習演算法模型,我與授課小組討論一下教案,其中乙個話題就是如何來區分乙個應用是分類問題還是回歸問題?如何來正確的選擇演算法模型?
從這個總結的內容來看,我覺得問題還是很多的,就是說分類還是回歸這兩種不同的演算法,實際區分起來沒那麼簡單。教案裡講,如果輸出的是乙個可度量的值,它就是乙個回歸問題,如果輸出是乙個不可度量的文字標籤,它應該是個分類問題。
比如說我們來**學生的數學課的考試成績,它是乙個回歸還是乙個分類啊?如果採用百分制的話,我們可以把它理解成是乙個回歸問題,輸出的呢,是乙個度量值。但是如果呢,我們採用abcd這個等級制的話,那它是算是分類啊還是回歸?實際上,如果你把它當作abcd個分類來處理的話,我感覺這個是明顯不妥當的,因為abcd它們之間的話,實際上是乙個隱含著乙個數量關係在裡邊。
實際上類似的例子我們還可以列舉很多。比如天氣預報,我們預告晴天,多雲,陰天,下雨這四種情況。這裡面呢,就隱含著乙個潛在的數量關係在裡邊。如果我們把晴天看做是數量零的話,把下雨看作看作數量1的話,那麼多雲,陰天,在數軸上大概就相當於0.3、0.6這麼乙個位置關係。
說到神經網路,它的最後一層softmax這樣乙個輸出,那麼究竟是回歸資料還是分類標籤?
拿手寫題識別為例,我們那個訓練樣本呢,是0123456789這十個數字,大概有幾萬張訓練樣本。這個神經網路的輸出,也是有十個,y0、y2、一直到y9。最後一層的啟用函式呢,是softmax,所以這個一般來講是乙個非常典型的分類網路。
但是呢,這個網路除了識別這個十個數字之外,我們把手寫體的英文本母輸進去,它實際上也會有乙個輸出的。比如說我輸入小寫的字母a,那麼呢,y0呢,實際上就對應它與數字0的相似度,y1呢,就是這個字母與數字1的相似度等等,因此的話y0到y9啊,這個輸出它就變成了這個字母a的十個特徵。
因此從特徵抽取的這個角度來看,傳統這個分類網路就變成了乙個回歸網路。所以,乙個演算法模型到底屬於什麼型別,還要看它用於處理什麼問題。像softmax這樣的輸出,如果我們只關心最大的輸出分量,它就是分類模型,如果我們認為每乙個輸出都代表乙個特徵,她就成了回歸網路。
機器學習之分類模型
iris 鳶尾花資料集是乙個經典資料集,在統計學習和機器學習領域都經常被用作示例。資料集內包含 3 類共 150 條記錄,每類各 50 個資料,每條記錄都有 4 項特徵 花萼長度 花萼寬度 花瓣長度 花瓣寬度,可以通過這4個特徵 鳶尾花卉屬於 iris setosa,iris versicolour...
機器學習演算法分類
這些演算法按照學習方式分類的分的話,可以分為一下幾類 1 監督式學習 從給定的訓練資料集中學習出乙個函式,當新的資料到來時,可以根據這個函式 結果。監督學習的訓練集需要包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。常見的監督式學習演算法包括回歸分析和統計分類。2 非監督式學習 與...
機器學習 分類演算法
最優化理論基礎 分類演算法詳解 簡單例項講解樸素貝葉斯分類演算法 機器學習實戰 樸素貝葉斯 機器學習實戰 python3 基於概率論的分類方法 樸素貝葉斯 機器學習入門之決策樹演算法 決策樹演算法的基本原理 機器學習實戰 python3 決策樹id3 機器學習實戰 基於資訊理論的三種決策樹演算法 i...