解決分類問題
線性判別分析(lda)
多分類學習
解決正負樣本比例不協調問題
參考文獻
線性模型的思想主要在於試圖通過乙個關於所有特徵的線性組合來學的乙個**函式,如下
通常我們為了利於程式的實現會通過向量的形式出現,如下
w和b學得之後,模型就可以確定
在西瓜書中,主要從三個方面介紹線性模型的應用:解決回歸問題、解決分類問題、解決正負樣本比例不協調問題。
基於乙個特徵值(乙個自變數)
基於多個特徵值(多個自變數)y = w1x1+w2x2+…+b
在西瓜書中解決線性回歸問題採用的是最小二乘法,其原理就是:當**值和實際值的距離的平方和最小時,就選定模型中的兩個引數(w和b)
邏輯回歸主要解決的是問題的可能性(好瓜的可能性、壞瓜的可能性)
注:一般認為分類問題都是「非0即1」,但在邏輯回歸中不再去擬合「非0即1」的標籤,而去擬合好瓜的概率,壞瓜的概率,可以通過下圖清晰的看出
注:該圖存在兩個不可導點,而在求損失函式的時候需要求偏導數,所以用了如上y=1/(1+e^(-z))來代替單位階躍函式,該函式處處可導,並且求導計算代價非常低。
所以將z=w^tx+b帶入可得
極大似然法
極大似然法是解決邏輯回歸比較常用的方法,原理是根據最大的可能性尋找最優解(每次猜對的可能性的乘積的最大值)
思想:它是一種經典的線性學習方法。設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能近,異類樣例的投影點盡可能遠,如下面的二維示意圖
西瓜書中提到了利於二分類學習器來解決多分類問題,但目前也有很多多分類學習器。
其主要思想在於將多分類任務拆分成多個二分類任務來求解,常見的拆分策略有:
如下是1對1和1對多的示意圖
而以上兩種其實都是多對多的特例,多對多是每次將若干個類作為正類,若干其他類作為反類,但正類和反類的構造需要有特殊的設計,常用的技術是:糾錯輸出碼(ecoc)
例如反例有998個,而正例只有2個,那麼只需要每次都**是反例的學習器即可,精度就很高了,但是這毫無價值,因為它不能**出正例。解決這類問題書中給出三個方法:再放縮、欠取樣、過取樣
之前我們通常是與乙個閾值進行比較,如下
而當出現類別不平衡問題時,我們就可以採用與先驗概率去比較,如下
再縮放(針對資料總體)
但是,前人為了還是能通過大於1,小於1這種閾值比較更加直觀,又提出了乙個上式改寫的策略:再縮放,如下
這樣就還是通過y『/(1-y』)與大於1小於1比較即可!!
欠取樣(針對訓練集)
比如反例有998個、正例有2個
做法:對訓練集裡的反例進行去除部分,使得正例數目和反例數目接近,然後再學習
過取樣(針對訓練集)
比如反例有998個、正例有2個
做法:對訓練集裡的正例進行增加,使得正、反例數目接近
ps:那麼問題來了,正例數怎麼增加???
舉個例子:比如一張狗的,狗的顏色是黃色,那我們就可以將狗的顏色變成其他顏色,如果都是趴著,那我們可以將做一下旋轉,就可以增加正例個數了
《機器學習》周志華著
機器學習 西瓜書 三 線性回歸 對數線性回歸
牆裂推薦閱讀 的衍生物 假設樣本x有d個屬性,線性模型 linear model 試圖學得乙個通過屬性的線性組合來進行 的函式,即f x w 1x1 w2x2 wdxd bf x w1 x1 w 2x2 w dxd b,向量形式 f x w tx b f x wt x b對離散屬性,若屬性值之間存在...
西瓜書讀書筆記(三) 線性模型
全部筆記的彙總貼 機器學習 西瓜書 讀書筆記彙總貼 線性模型 linear model 試圖學得乙個通過屬性的線性組合來進行 的函式,我們一般用向量的形式來表示,f x wt x bf x w tx b f x w tx b 因為w ww直觀地表達了各屬性在 中地重要性,因此線性模型有很好地可解釋性...
《機器學習》閱讀心得 三 線性模型
給定乙個由d個屬性描述的示例x x1 x2 x d 其中xi 是x在第i個屬性上的取值,線性模型試圖學習到乙個通過屬性的線性組合來進行 的函式,即f x 1x1 2x2 dx d b 用向量形式可寫為f x tx b 3.1 線性回歸 假定屬性只有乙個,那麼線性回歸的任務是學得f xi xi b 為...