機器學習基礎專題 分類

2021-10-09 16:19:33 字數 913 閱讀 5235

使用的是非概率模型,分類結果是決策函式的決策結果。

代表:線性判別分析、感知機

分類結果是屬於不同類別的概率。

生成式通過貝葉斯定理,使用map比較p(y

=0∣x

)p(y=0|x)

p(y=0∣

x)和p (y

=1∣x

)p(y=1|x)

p(y=1∣

x)的值。代表:gaussian discriminant analysis

判別式直接對p(y|x)進行學習。

代表:邏輯回歸

將k個類別兩兩配對,產生k(k-1)/2個二分類任務。儲存開銷和測試時間開銷通常比ovr更大。

將乙個類的樣例作為正例,所有其他類的樣例作為反例來訓練n個分類器。在類別很多的時候,ovr的訓練時間開銷較大(每一次訓練都是全量樣本)。

每次將若干個類作為正類,若干個其他類作為反類。

技術:糾錯輸出碼ecoc。

過程:編碼,對k個類別做p次劃分,一共產生p個訓練集,和p個分類器。解碼,p個分類器分別對測試樣本進行**,**標記組成乙個編碼。將編碼與每個類別自己的編碼比較,返回其中距離最小的類別。類別劃分通過編碼矩陣(二元碼或者三元碼)。

在測試階段,ecoc編碼對分類器的錯誤有一定的容忍和修正能力。一般來說,對同乙個學習任務,編碼越長,糾錯能力越強(所訓練的分類器越多)。

基本策略就是再縮放。利用y′1

−y′=

y1−y

∗m−m

+\frac = \frac*\frac

1−y′y′

​=1−

yy​∗

m+m−

​。代表有easyensemble演算法。將反例劃分成若干個集合供不同學習器使用,在全域性來看不會丟失重要資訊。

代表有smote演算法。

將基本策略內嵌。

機器學習分類

監督學習是從標記的訓練資料來推斷乙個功能的機器學習任務。訓練資料報括一套訓練示例。在監督學習中,每個例項都是由乙個輸入物件 通常為向量 和乙個期望的輸出值 也稱為監督訊號 組成。監督學習演算法是分析該訓練資料,並產生乙個推斷的功能,其可以用於對映出新的例項。主要有 非監督學習是在未加標籤的資料中,試...

機器學習分類

一 機器學習的概念 從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接程式設計無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用資料,訓練出模型,然後使用模型 的一種方法。二 機器學習的分類 1.監督學習 監督學習 資料集有輸入和輸出資料 通過已有的一部分輸入資料與輸...

機器學習基礎4 評估線性分類

如線性回歸一樣,我們也分成了訓練集和測試集.用訓練集進行分類器的學習,用測試集來評估分類錯誤.分類錯誤 測試集 隱藏型別標籤 放到分類器進行處理 得出結果 與定義好的型別標籤進行比較 錯誤率 分類錯誤數 總句子數 正確率 分類正確數 總句子數 那麼,什麼樣的正確率才是好的?至少要比隨機猜測效果要好....