線性模型:試圖學得乙個屬性的線性組合來進行**的函式
\[f(x) = w_1x_1+w_2x_2+..+w_dx_d+b
\]向量模式:
\[f(x)=w^tx+b
\]簡單、基本、可解釋性好(可看出每部分屬性所做的貢獻)
可用於分類和回歸
多個特徵\(\)
\[h_(x) = \sum_^\theta_ix_i=\theta^tx
\]損失函式mse
\[j(\theta_0,\theta_1,..,\theta_n) = \frac\sum_^(h_(x^)-y^)^2
\]損失函式是乙個先減小後增大的過程(隨著\(\theta\)),是乙個凸函式,衡量**值與標準答案的差異。
優化損失函式的方法:梯度下降,梯度是上公升最快的方向,負梯度是下降最快的方向。
\[y=\theta_1x_1+\theta_0
\]\[\theta_0:=\theta_0-\alpha\frac\sum_^(h_(x^)-y^)
\]\[\theta_1:=\theta_1-\alpha\frac\sum_^(h_(x^)-y^)\cdot x^
\]\(\alpha\)太小,收斂速度太慢
\(\alpha\)太大,收斂速度快,**不穩定,甚至不收斂
多項式擬合:選取多項式的次數
模型的欠擬合和過擬合
欠擬合:沒有很好的捕捉到資料的特徵,不能很好的擬合資料
過擬合:把樣本點的一些雜訊特性也學習下來,泛化能力差
實際工業界使用各種模型都存在過擬合的風險:
利用正則化對高次項增加損失,減少高次項的權重,「不讓他甩起來」
單單比對標準答案是不夠的,減少\(\theta\)的絕對值,控制幅度,限制\(\theta\)的搜尋空間
\[j(\theta_0,\theta_1,..,\theta_n) = \frac\sum_^(h_(x^)-y^)^2+\lambda\sum_^\theta_^
\]對線性對映的結果進行數學變換,逼近y
\[lny = w^tx+b
\]\[y = e^
\]利用\(e^\)逼近y
用線性回歸+閾值解決分類問題,當有雜訊點時,閾值偏移大,健壯性不夠。
因此採用邏輯回歸確定決策邊界,這一騷操作摒棄原來的擬合樣本分佈,換了思維:找到分類的決策邊界
sigmoid函式:
\[y = \frac}
\]\[z = h_(x)
\]sigmoid是乙個壓縮函式,將直線的取值範圍壓縮至\([0,1]\)
將**的結果設為目標\(x\)判斷為正樣本的概率
此時\(h_(x)\)為一條決策分類邊界:
樣本在其外部,所得概率大於0.5
樣本在其內部,所得概率小於0.5
若採用均方差損失mse
:
\[j(\theta)=\frac\sum_^\frac(h_(x^)-y^)^
\]該損失函式是非凸函式,有很多區域性最值點,無法優化
因此採用對數損失(二元交叉熵損失)
\[cost(h_(x),y)=\left\
-log(h_(x))&y=1 \\
-log(1-h_(x))&y=0
\end\right.
\]\[j(\theta)=-\frac\sum_^[y^log(h_(x^))+(1-y^)log(1-h_(x^))]
\]新增正則化項
\[j(\theta)=-\frac\sum_^[y^log(h_(x^))+(1-y^)log(1-h_(x^))]+\frac\sum_^\theta_^
\]梯度下降法,沿著損失函式梯度的方向逐步修正引數:
\[\theta_:=\theta_-\alpha\frac}j(\theta)
\]one vs one:分成多個兩組\([c_1,c_2],[c_1,c_3],[c_2,c_3]\)求每類的概率
**結果為最大的概率對應的類
類別概率
\(c_1,c_2\)
\(p_1,p_2\)
\(c_3,c_4\)
\(p_3,p_4\)
\(c_5,c_6\)
\(p_5,p_6\)
one vs rest:分別**是否為\(c_1,c_2,c_3\)類,**結果為最大概率對應的類
類別概率
\(c_1 vs \, rest\)
\(p_1\)
\(c_2 vs \, rest\)
\(p_2\)
\(c_3 vs \, rest\)
\(p_3\)
模型本無好壞之分,lr雖然簡單,但並不代表它弱於其他模型
lr優缺點如下表
優點缺點
能以概率的形式輸出,而非只是0—1判定:可以做ranking
對樣本分佈敏感
可解釋強,可控度高:每個特徵對於結果的貢獻程度非常清晰
訓練快,特徵工程(fe)之後效果好
非常依賴特徵工程
新增特徵簡單
應用:
線性模型 邏輯回歸
模型原型 class sklearn.linear model.logisticregression penalty l2 dual false,tol 0.0001,c 1.0,fit intercept true,intercept scaling 1,class weight none,ran...
線性回歸與邏輯回歸
cost functionj 12m i 1m h x i y i hypothesish x tx 梯度下降求解 為了最小化j j j 1m i 1m h x i y i x i j 每一次迭代更新 j j 1m i 1m h x i y i x i j 正規方程求解 最小二乘法 xtx 1x t...
線性回歸模型 線性回歸模型
回歸的思想和分類有所不一樣,分類輸出的結果為離散的值,回歸輸出的是乙個連續型的值。線性回歸的思想就是試圖找到乙個多元的線性函式 當輸入一組特徵 也就是變數x 的時候,模型輸出乙個 值y h x 我們要求這個 值盡可能的準確,那麼怎麼樣才能做到盡可能準確呢?其中 表示實際值,表示 值 其中 表示實際值...