給定乙個由d個屬性描述的示例x=
(x1;
x2;.
..;x
d),其中xi
是x在第i個屬性上的取值,線性模型試圖學習到乙個通過屬性的線性組合來進行**的函式,即f(
x)=ω
1x1+
ω2x2
+...
+ωdx
d+b
用向量形式可寫為f(
x)=ω
tx+b
3.1 線性回歸
假定屬性只有乙個,那麼線性回歸的任務是學得f(
xi)=
ωxi+
b 為了確定
ω 和b,我們的目標是使得均方誤差最小化。均方誤差對應了常用的「歐氏距離」,在幾何上,這種方式就是找到一條直線,使得所有樣本到這條直線的歐氏距離之和最小。在公式上,即求解ω 和
b 使得e(
ω,b)
=∑mi
=1(y
i−ωx
i−b)
2取最小值。
更為一般的,考慮回歸到y的函式g(
y),那麼線性回顧模型可以推廣為廣義線性模型,即g(
y)=ω
tx+b
變換可得y=
g−1(
ωtx+
b)其中函式g(·)稱為聯絡函式。
3.2 對數機率回歸
當需要對分類任務進行線性回歸時,我們可以從廣義線性模型出發,找到乙個可微函式將分類任務的真實標記
y 與線性回歸模型的**值聯絡起來。
針對二分類任務,考慮採用近似單調階躍函式的對數機率函式y=
11+e
−z將上式代入廣義線性模型(z為上式的y),經變換可以得到lny
1−y=
ωtx+
b 將y
視為樣本x作為正例的可能性,則1-y是其反例可能性。兩者比值稱為「機率」,反映了x作為正例的相對可能性。因此上式是用線性回歸模型的**結果去逼近真實標記的對數機率,這個模型被稱為對數機率回歸。
3.3 線性判別分析
線性判別分析(linear disriminant analysis,lda)是一種經典的線性學習方法,在二分類問題上因為最早由fisher提出,又稱為「fisher判別分析」。
lda的思想是:給定訓練樣例集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近,異類樣例的投影點盡可能遠離;對新樣本進行判別時,根據投影點的位置進行判別。
3.4 多分類學習
可利用二分類學習器解決多分類問題。多分類學習的基本思路是「拆解法」,將多分類任務拆分為若干個二分類任務求解。
最經典的拆分策略有三種:「一對一」(one vs. one,簡稱ovo)、「一對其餘」(one vs. rest,簡稱ovr),」多對多」(many vs. many,簡稱mvm)。
給定資料集d=
,yi∈
。ovo將這 n個類別兩兩配對,產生n(
n−1)
/2個二分類任務,並得到同樣數量的分類器。在測試時,新樣本將會提交給所有的分類器,最終結果可通過投票產生。
ovr則是每次將乙個類的樣例作為正例,而用其他類的所有樣例作為反例來訓練n個分類器。在測試時若僅有乙個分類器**為正類,則對應的分類標記作為最終分類結果。若有多個分類器**為正類,則計算各分類器的**置信度,選擇置信度最大的標記作為分類結果。
mvm是每次將若干個類作為正類,若干個其他類作為反類。顯然,mvm的正、反類構造必須有特殊的設計,不能隨意選取。
3.5 類別不平衡問題
類別不平衡是指分類任務中不同類別的訓練樣例數量差別很大的情況。當出現類別不平衡時,將會對傳統的分類任務出現困擾。
從線性分類器的角度來理解,當使用y=
ωtx+
b 對新樣本進行分類時,實際上是用
y 值與閾值進行比較。y值實際上表示了正例的可能性,機率y1
−y則表示了正例可能性與反例可能性之比值,分類器判斷為正例的規則為y1
−y>1
在訓練集中,令m+
表示正例數目,m−
表示反例數目,則觀測機率是m+
m−。假定訓練集是真實樣本總體的無偏估計,因此觀測機率就代表了真實機率。所以,只要分類器的**機率高於訓練集的觀測機率應判斷為正例,即y1
−y>m+
m−進行處理後有y1
1−y1
=y1−
y×m−
m+>1
這種方法稱為「再縮放」,是類別不平衡學習中的乙個基本策略。
但是在實際工作中,「訓練集是真實樣本總體的無偏取樣」這個假設往往並不成立。現在技術大概有三種做法:「欠取樣」: 去除一些反例使得正、反例數目接近,再進行學習;「過取樣」:增加一些正例使得正反例數目接近,再進行學習;「閾值移動」:基於原始資料集進行學習,在進行**時,採用「再縮放」方式。
機器學習西瓜書閱讀筆記 (三)線性模型
解決分類問題 線性判別分析 lda 多分類學習 解決正負樣本比例不協調問題 參考文獻 線性模型的思想主要在於試圖通過乙個關於所有特徵的線性組合來學的乙個 函式,如下 通常我們為了利於程式的實現會通過向量的形式出現,如下 w和b學得之後,模型就可以確定 在西瓜書中,主要從三個方面介紹線性模型的應用 解...
機器學習經典模型(三) 線性回歸
線性回歸的定義是 目標值預期是輸入變數的線性組合。線性模型形式簡單 易於建模,但卻蘊含著機器學習中一些重要的基本思想。線性回歸,是利用數理統計中回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。簡單來說,就是選擇一條線性函式來很好的擬合已知資料並 未知資料。既然...
機器學習(三) 線性回歸
矩陣是二維陣列的另一種說法。矩陣的維數即行數 列數。aij指第i行,第j列的元素。向量是一種特殊的矩陣,是只有一列的矩陣。通常在書寫時,使用大寫字母表示矩陣,小寫字母表示向量。mn矩陣乘以no矩陣變成m o矩陣。通過構建兩個矩陣可以快速地把這三個假設函式應用到4個房子的尺寸中,得到12種基於3個假設...