給定乙個由d個
屬性描述
的示例x
=(x1
,x2,
...,
xd) ,其中xi
是x在第
i個屬性
上的取值
,線性模型(linear model)試圖學得乙個通過屬性的現實組合來進行**的函式,即 f(
x)=w
1x1+
w2x2
+...
+wdx
d+b
一般用向量形式寫成 f(
x)=w
tx+b
其中w=
(w1,
w2,.
..,w
d)。w
和b學得
之後,模
型就得以
確定。 由於
w 線性回歸(linear regression)試圖學得乙個線性模型以盡可能準確地**實值輸出標記。
對離散屬性,若屬性值間存在序(order)關係,可通過連續化將其轉化為連續值;若屬性值間不存在序關係,假定有
k個屬性值,則通常轉化為
k 維向量,但會不恰當地引入序關係,對後續處理造成誤導。
線性回歸試圖學得 f(
xi)=
wtxi
+b,使
得f(x
i)≃y
i顯然關鍵在於如何衡量f(
x)與y
之間的差
距。均方差是回歸任務中最常用的效能度量,因此我們可以試圖讓均方誤差(square loss)最小化,即 (w
∗,b∗
)=argmax(w
,b)∑
i=1m
(f(x
i)−y
i)2=
argmax(w
,b)∑
i=1m
(yi−
wx1−
b)2
求解w和b
使e(w
,b)=
∑mi=
1(yi
−wx1
−b)2
最小化的過程,稱為線性回歸模型的最小二乘引數估計(parameter estimation)。將e
分別對w
和b求導
,解 ∂e
(w,b
)∂w=
2(w∑
i=1m
x2i−
∑i=1
m(yi
−b)x
i)=0
∂e(w,b)
∂b=2
(mb−
∑i=1
m(yi
−wxi
))=0
得 w=
∑mi=
1yi(
xi−x
¯)∑m
i=1x
2i−1
m(∑m
i=1x
i)2,
x¯=1
m∑i=
1mxi
b=1m∑i=
1m(y
i−wx
i)。
這裡e(
w,b)
是關於w 和
b的凸函式,當關於
w 和
b的導數均為零時,得到
w 和
b的最優解。
對於區間[a
,b] 上定義的函式
f ,若它對區間中任意兩點x1
,x1均有
f(x1
+x22
)≤f(
x1)+
f(x2
)2,則稱
f 為區間[a
,b]的凸函式。對實數集上的函式,可以通過求二階導數來判斷:若二階導數在區間上非負,則稱凸函式;若二階導數在區間上恆大於零,則稱嚴格凸函式(與同濟大學出版的高等數學教材中凹凸函式定義正好相反)。
當樣本由
d 個屬性描述,此時試圖學得 f(
xi)=
wtxi
+b,使
得f(x
i)≃y
i稱為多元線性回歸(multivariate linear regression)。
類似的,同樣可以利用最小二乘法來對w和
b 進行估計。我們把w和
b 吸入向量形式wˆ
=(w;
b), 把資料集
d 表示為乙個m×
(d+1
)大小的矩陣
x ,即 x=
⎡⎣⎢⎢
⎢⎢⎢x
11x21⋮
xm1x
12x22⋮
xm2⋯
⋯⋱⋯x
1dx2
d⋮xm
d111
⎤⎦⎥⎥
⎥⎥⎥=
⎡⎣⎢⎢
⎢⎢⎢x
t1xt
2⋮xt
m11⋮
1⎤⎦⎥
⎥⎥⎥⎥
機器學習day03
資訊理論基礎 熵 聯合熵 條件熵 資訊增益 基尼不純度 資訊熵 資訊熵是度量樣本集合純度常用的一種指標。定義為 聯合熵 聯合熵就是度量乙個聯合分布的隨機系統的不確定度 條件熵 在得知某一確定資訊的基礎上獲取另外乙個資訊時所獲得的資訊量。資訊增益 資訊增益代表使用屬性a帶來的純度提公升,資訊增益越大,...
前端學習day03
今天學了個新東西,是根據螢幕寬度大小修改網頁顯示的內容。大概查了下用法,media 可以針對不同的螢幕尺寸設定不同的樣式,特別是如果你需要設定設計響應式的頁面,media 是非常有用的。當你重置瀏覽器大小的過程中,頁面也會根據瀏覽器的寬度和高度重新渲染頁面。這個有時有效,有時會失效,具體是看電腦解析...
學習筆記day03
邏輯運算子 異或 符號兩邊結果相同,結果為false 符號兩邊結果不同,結果為true 面試題1,雙與 也叫短路運算,因為左側如果為假的話直接不判斷右側結果 與 c無論左邊結果運算是什麼,右邊都參與運算。2,雙或 和或 運算結果一樣,但是運算過程有點小區別。無論左邊運算結果是什麼,右邊都參與運算 當...