原文:
1.2.
3.對於乙個假設函式,需要一種方法來衡量它如何適應資料。 現在我們需要估計假設函式中的引數。 這就是漸進下降的地方。
想象一下,我們基於它的場θ0和θ1來繪製我們的假設函式(實際上我們將成本函式繪製為引數估計的函式)。 我們不是繪製x和y本身,而是我們的假設函式的引數範圍和從選擇一組特定引數導致的成本。
我們把θ0放在x軸上,θ1在y軸上,成本函式在垂直z軸上。 我們圖上的點將是使用我們的假設與那些特定的θ引數的成本函式的結果。 下圖顯示了這樣的設定。
當我們的成本函式處於圖表中最底層的時候,即當其值是最小值時,我們就知道我們已經成功了。紅色箭頭顯示圖中的最小點。
我們這樣做的方式是通過使用我們的成本函式的導數(函式的切線)。切線的斜率是這一點的衍生物,它將給我們乙個朝向的方向。我們以最快下降的方向降低成本函式。每個步驟的大小由引數α確定,這被稱為學習速率。
例如,上圖中的每個「星」之間的距離表示由我們的引數α確定的步長。較小的α將導致較小的步長,較大的α導致較大的步長。採取步驟的方向由j(θ0
,θ1)的偏導數確定。根據圖表開始的位置,可能會在不同的地方出現。上圖顯示了兩個不同的起點,最終出現在兩個不同的地方。
梯度下降演算法是:
重複直到收斂:
j = 0,1表示特徵索引號。
在每次迭代j中,應同時更新引數θ1,θ
2,...,θ
n。 在第j(
th)個迭代之前計算另乙個引數之前更新乙個特定的引數會導致錯誤的演算法。
使用乙個引數θ1
並繪製其成本函式來實現梯度下降的情況的單引數公式是:
重複直到收斂:
不管d /dθ
1j(θ
1)的斜率符號,θ
1最終收斂到其最小值。 下圖顯示當斜率為負時,θ
1的值增加,當為正時,θ
1的值減小。
另外,我們應該調整引數α,以確保梯度下降演算法在合理的時間內收斂。沒有收斂或過度收斂來獲得最小值意味著我們的步長是錯誤的。
梯度下降如何以固定的步長α收斂?
收斂背後的直覺是當我們接近凸函式的底部時,d /dθ
1j(θ
1)接近
0。 至少,導數將始終為
0,因此我們得到:
當具體應用於線性回歸的情況時,可以推導出一種新形式的梯度下降方程。
我們可以用我們的實際代價函式和我們的實際假設函式來代替:
其中m是訓練集的大小,θ
0是與θ
1同時變化的常數,xi,
yi是給定訓練集(資料)的值。
注意,我們將θj
的兩個情況分離為θ0和θ
1的單獨方程
; 而對於θ
1,我們由於導數而在結尾處乘以
xi。 以下是單個示例的∂/∂θ
jj(θ)的推導:
如果我們從猜測我們的假設開始,然後重複應用這些梯度下降方程,我們的假設將變得越來越準確。
因此,這只是原始代價函式j的梯度下降。該方法檢視每個步驟的整個訓練集中的每個示例,稱為批量梯度下降。 注意,雖然梯度下降一般可以容易受到區域性極小值的限制,但我們在此提出的線性回歸的優化問題只有乙個全域性,沒有其他區域性最優
; 因此梯度下降總是收斂(假設學習速率α不是太大)到全域性最小值。 的確,
j是乙個凸二次函式。 這是梯度下降的示例,因為它執行以最小化二次函式。
上面所示的橢圓是二次函式的輪廓。
還顯示了由(48,30)初始化的梯度下降所採取的軌跡。 圖中的
x(通過直線連線)標記梯度下降經過的θ的連續值,因為它收斂到最小值。
深度學習 應用數學與機器學習基礎 3
矩陣分解除了分解成特徵值和特徵向量。還有一種分解矩陣的方法,被稱為奇異值分解 singular value decomposition svd 將矩陣分解為奇異向量和奇異值。通過奇異值分解,我們會得到一些與特徵分解相同型別的資訊。每個實數矩陣都有乙個奇異值分解,但不一定有特徵分解。回想一下,我們使用...
機器學習 數學 機器學習涉及的數學知識
簡單總結 機器學習涉及的數學知識有 線性代數,概率論和統計學,多變數微積分,演算法和複雜優化,以及其他等。原文 在過去幾個月裡,有幾個人聯絡過我,說他們渴望進軍資料科學領域,使用機器學習 ml 技術探索統計規律,並打造資料驅動的完美產品。但是,據我觀察,一些人缺乏必要的數學直覺和框架,無法獲得有用的...
機器學習 數學基礎
scalar 標量 sunspot number dalton minimum exponentiation 指數化 資訊理論 對數函式 log2 sigmod 啟用函式 relu 啟用函式 vector 向量 vector space 向量空間 歐幾里德空間 笛卡爾座標系 極座標系 norm of...