基本形式f(
x)=ω
1x1+
ω2x2
+...
+ωdx
d+b
寫成向量模式: f(
x)=ω
tx+b
線性回歸
均方誤差最小化,可以求出解析解。在引入多變數時,特徵矩陣x往往不是滿秩矩陣,這時可以有多組引數解,選擇那個解作為輸出,有學習演算法的歸納偏好決定,常見方法時引入正則項。
衍生物1:對數線性回歸 ln
(y)=
ωtx+
by=e
ωt+b
衍生物2:對數機率回歸 ln
(y1−
y)=ω
tx+b
y=11
+e−(
ωtx+
b)優點:
1.直接對分類可能性進行建模,無需假設資料分布??????
2. 近似概率分布,任意階可導,方便求解。
解法:用極大似然法求解 l(
w,b)
=∑i=
1mln
p(yi
|xi;
ω,b)
其中: p(
yi|x
i;ω,
b)=p
(yi|
xi)y
ip((
1−yi
)|xi
)1−y
i 用梯度下降求解可得 βt
+1=β
t+α×
∑i=1
m(yi
−p(y
i|xi
))xi
線性判別分析(lda)
lda的思想:給定訓練樣例,設法將樣例投影到一條直線上,使得同類投影點盡量接近,異類投影點盡可能遠離。
多分類學習
採用一些基本策略,利用二分類學習器來解決多分類問題。經典策略:一對一,一對其餘,多對多。
多對多中常用計數:糾錯輸出碼,
編碼:對n個類別做m次劃分,每次劃分一部分類別為正,其餘為負,產生m個訓練集,訓練m個分類器,
解碼:對測試樣本進行**,將**結果組成乙個編碼,與各類別對編碼計算距離,距離最小的類別作為最終**結果。
類別不均衡問題
線性分類器y=
ωtx+
b 對新樣本進行分類時,通過
y 值與乙個閾值進行對比,通常為0.5,這就意味著決策規則為: y1
−y>1,
則**為
正例類別不平衡學習的乙個基本策略:再縮放-1欠取樣2過取樣
1. 欠取樣,easyensemble利用繼承學習機制,將反例劃分為若干個集合共不同學習器使用,
2. 過取樣,smote通過對訓練集裡對正例進行插值產生額外的正例。
ML chapter2模型選擇與評估
經驗誤差 學習器在訓練集上的誤差稱為經驗誤差 2.過擬合 學習器的經驗誤差降低,同時泛化效能也跟著下降。評估方法 劃分訓練集和測試集 1.留出法 資料劃分成互斥的兩組,並盡可能保證資料分布的一致性,避免因為劃分過程引入的偏差而對結果產生影響。同時,單次使用留出法得到的估計結果往往不夠穩定,一般採用若...
線性回歸模型 線性回歸模型
回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...
線性特徵與非線性特徵 線性模型與非線性模型
這是個見仁見智的問題,也就是說,它似乎沒有乙個確定的答案,因而我們不糾結於到底把這個模型稱作 線性model or 非線性model 從這麼僵化的論戰裡跳脫出來,好好掰扯一下這個問題 若我們的樣本是線性可分的,那麼我們直接使用線性model就可以解決分類問題,如lr。下圖是lr的決策邊界示意圖 最後...