經過前面兩講的內容,我們完成了對線性回歸(linear regression)和邏輯回歸(logistics regression)核心內容的學習,但是一些涉及到模型改善(optimization)與泛化(generalization)的方式並沒有進行介紹。第三講,筆者將以線性回歸和邏輯回歸為例(同樣可以運通到後續介紹的其他演算法模型),介紹一些機器學習中常用的模型和資料處理的技巧,以及盡可能的說清楚為什麼要這麼做的原因。由於這部分的內容略微有點雜亂,所以筆者將按照如下順序來遞進地進行介紹,同時再輔以示例進行說明。
如圖所示同樣為函式j(w
1,w2
)=w1
2+w2
2+5j(w_1,w_2)=w_1^2+w_2^2+5
j(w1,
w2)
=w12
+w2
2+5
的等高線圖,其中任意乙個環代表的都是不同(w1
,w2)
(w_1,w_2)
(w1,w
2) 取值下相等的函式值,同時可以看到中心點為j(0
,0)j(0,0)
j(0,0)
對於的函式值5,通常這也是通過梯度下降進行求解的點。
由於**梯度的方向始終與等高線保持垂直,**所以理想情況下不管隨機初始點選在何處,我們都希望梯度下降演算法沿著如下圖左邊所示的方向達到最低點,而非右邊的情形:
(3)其中mea
n(x)
mean(x)
mean(x
)表示每一列特徵的平均值,σ
\sigma
σ表示每一列特徵的標準差。在進行standarlization標準化後,將使得每一列特徵的均值都為0 ,方差都為1。其實現**如下:
def
standarlization
(x):
mean = x.mean(axis=0)
std = x.std(axis=0)
return
(x - mean)
/ std
讀者可通過文末提供的示例**進行特徵標準化與非標準化結果的對比。
在前面介紹線性回歸的時候,我們通過乙個**梯形面積的示例來解釋了特徵組合的作用(豐富特徵屬於以提高**精度)。但是,我們還可以從另外乙個角度來理解特徵組合。線性回歸和邏輯回歸從本質上講都屬於線性模型(都是一系列的特徵加權求和),因此對於基本的線性模型和邏輯回歸模型來講其分別只能用於**線性變化的實數和線性可分的分類。即對於如下圖所示的兩種任務,兩個模型均不能夠完成:
所謂的特徵對映就是將原來的特徵屬性通過各種方式,將其對映到高維空間的過程。當原有的特徵被對映到高維空間後,就可能存在乙個線性的超平面能夠對資料進行很好的擬合。因此,對於上圖中的兩種情形我們都可以通過前面介紹的方法將其對映為多項式特徵,如:將x1,
x2x_1,x_2
x1,x2
對映為x1,
x2,x
1x2,
x12,
x22,
x1x2
2,x1
2x2x_1,x_2,x_1x_2,x_1^2,x_2^2,x_1x_2^2,x_1^2x_2
x1,x2
,x1
x2
,x12
,x2
2,x
1x2
2,x
12x
2等等。但是對於上面的兩個例子來說,只需要將原始特徵對映至最高2次多項式就能完成相應的任務,即通過如下**便可完成:
pol = polynomialfeatures(degree=
2, include_bias=
false
) x_pol = pol.fit_transform(x)
擬合後的結果:
為什麼要特徵標準化及特徵標準化方法
歸一化化就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內。歸一化的原因是什麼那?一是,為了後面資料處理的方便,把不同量綱的東西放在同一量綱下比較,即 把不同 的資料統一到乙個參考係下,這樣比較起來才有意義。簡單的舉個例子 一張表有兩個變數,乙個是體重kg,乙個是身高cm。...
歸一化與標準化
特點 對不同特徵維度的伸縮錶換的目的是使各個特徵維度對目標函式的影響權重是一致的,即使得那些扁平分布的資料伸縮變換成類圓形。這也就改變了原始資料的乙個分布。好處 1 提高迭代求解的收斂速度 2 提高迭代求解的精度 方法 1 min max標準化 也成為離差標準化,對原始資料的的線性變換,結果值對映到...
歸一化與標準化
1 提公升訓練的速度 2 提公升模型的精度 3 深度模型中能夠防止梯度 min max 歸一化 x x x min x max x min 將x 對映到 0,1 之間的乙個數 z score 標準化 均值為0 標準差為1 當有新的樣本加入時,min max 計算量小,z score 需要重新計算均值...