多分類問題的一般方法,是將多分類任務拆分為多個二分類任務求解,這裡設有
n 個類別:c1
,c2,
…,cn
1:將多分類問題拆解為若干個二分類問題
2:為每個二分類問題訓練乙個分類器
3:得出每個二分類問題的**結果
4:對這些二分類問題的結果進行整合最後得到多分類結果
給定資料集: d=
,yi∈
拆分方法如下:ov
o−(o
nevs
˙one
) 「一對一」 將n
個類別兩兩配對,從而產生了n(
n−1)
2個二分類問題
t)每次將乙個類的樣例作為正例,其他類的樣例作為反例來訓練
n 個分類器,在測試時僅有乙個分類器**為正類,則對應的類別標記就作為最終分類結果。
o和ov
r 的比較
分類器個數:ov
o 需要訓練n(
n−1)
2 個分類器 ov
r 只需要訓練
n 個分類器,
分類器的樣例:ov
o每個分類器使用兩個樣例 ov
r 每個分類器使用所有樣例
時間開銷:
在類別比較少的情況下: ov
o 的訓練器比較多,所以儲存開銷和測試時間開銷通常都比ov
r 的大。
在類別比較多的情況下: ov
o 的訓練器的樣例比較少,所以訓練時間開銷通常都比ov
r 的少。mv
m−(m
anyv
s˙ma
ny)
做法每次將若干個類作為正類,其他若干個類作為反類。
糾錯輸出碼ec
oceco
c=(e
rror
corr
ecti
ngou
tput
code
s)編碼:對n
個類別做
m次劃分,每次劃分將一部分類別劃分為正類,一部分劃分為反類,從而形成乙個二分類訓練集,這樣一共產生
m 個訓練集,可以訓練出
m個分類器。
解碼:
m 個分類器分別對測試樣本進行**,這些**標記組成乙個解碼,將這個**解碼與每個類別各自的編碼進行比較,返回其中距離最小的類別作為最終結果。
編碼矩陣
「+1」和「-1」分別表示學習器fi
將該類別樣本作為正反例,「0」表示fi
不適用該類樣本。
主要形式:二元
碼={正
類反類=
碼=⎧⎩
⎨⎪⎪正
類反類停
用類==
oc碼的性質
一般來說:在同乙個學習任務中
碼長度⇑
,糾錯能力
⇑ ,訓練分類器
⇑ ,計算儲存開銷
⇑ 。
對同等長度的編碼,任意兩個類別之間的編碼距離越遠,則糾錯能力越強。
機器學習筆記 線性模型
寫在前面的一些廢話 伴隨課程以及自習,學得既算系統也算零散。學校多統計,演算法講解幾近寥寥。自古以來,統計系的教授多半樂於指摘機器學習與人工智慧,但學科總又不得不與之掛鉤密切,且多隨其發展潮起潮落。內部糾紛,不足為外人道已。只有深受其紛雜概念困擾的學習者,感觸頗深。不隨時總結,建立知識庫,實在容易迷...
機器學習線性模型學習筆記
參考 周志華機器學習第三章 給定由d個屬性描述的示例x x1 x2 x d 其中xi是x在第i個屬性上的取值,線性模型試圖學得乙個通過屬性的線性組合來進行 函式,即 f x w 1x1 w2x2 wdx d b 一般用向量形式寫成 f x w tx b 其中w w1 w2 w d w和b學得之後,模...
機器學習 線性模型
這篇文章總結了 3 種線性模型 線性回歸 對數線性回歸和邏輯斯蒂回歸 logistic regression,lr,對數機率回歸 假設資料集 d 其中 x i x x dots x y in r 也就是,資料集 d 共包含 m 個樣本,每個樣本含有 d 個屬性.線性回歸的目標是找到引數 w w 1,...