深度學習 梯度下降和反向傳播

2021-08-01 07:40:20 字數 2373 閱讀 7409

引用知乎上的乙個回答

那麼導數的本質是什麼?就是變化率唄,例如小王今年賣了100頭豬,去年90頭,前年80頭,,,也就是說每年增加10頭,這就是變化率,完整點就是說10頭/年,是有單位的,也就是說導數為10,說白點就是自變數單位變化量的基礎上因變數的變化量,自變數就是年份,單位為年,因變數為豬的數量,年份的單位變化量就是指每年,豬的數量的變化量就是10頭,所以變化率10頭/年,導數為10咯。

上述例子指的是變化率為恆定的,對於一般的變化率不斷變化的函式例如 y = 2x^2+30,這裡的x代表年份,y代表豬的數量,這個時候變化率就是變化的,例如x = 1, y = 32, x = 2, y =38,你看x變化了1,y變化了6,為什麼?對上面的式子求導為4x,這個代表變化率,你會說x=1的時候變化率不是為4嘛,不是意味著單位x的變化量y應該改變量為4嘛?高中數學學過導數就是斜率,你在x=1出的斜率為4,在其他地方就不是了啊,你如果在x= 1出做乙個切線,你讓x=2出做垂直線,形成的直角三角形的變化量就是4,不過函式是曲線並不是你的切線。

什麼是偏導數?看下面的例子,y = 5a + 6b + 7c + 30,這個地方y代表豬的數量,a代表年份,b代表養豬場的面積,c代表飼料的數量,前面說導數就是變化率,實質上應該說是y對於x的變化率,此處偏導數就是針對某個變數的變化率唄,也就是說a變數的單位變化造成y的變化量不就是y對a的偏導數,上面的例子y對a的偏導數5,對b的偏導數6,對c的偏導數為7,注意在考慮偏導數的時候其他的變數是認為常量,也就是a變化1,y變化5,b變化1,y變化6,依次類推。

在說到梯度下降之前一般都會說到線性回歸,回歸本質上就是給定乙個點集,也就是有好多的點,用一條曲線去擬合,如果曲線為直線,就為線性回歸,例如帝都的房子**y由兩個因素影響,x1為房子面積,x2為房子的地理位置,那麼我們最後用乙個表示式擬合出來,

問題的關鍵是如何評價我這個擬合的好壞呢?

下面就提出了損失函式

這裡直接對應到了神經網路中,神經網路的目的就是訓練一組優良的w,b使得最後的c最小,

這裡w為權重,b為偏向,相當於x1,x2,n為訓練集例項的個數,y(x)相當於h(x)神經網路的內部相當於乙個模型,輸入x,輸出y(x),這個函式表示式本質上是一樣的,相當於一種對映,a為實際的輸出值,所以這對應於有監督學習,也就是輸入x,經過神經網路輸出y(x),和我的標籤輸出值a進行比較,我們的目標是c(w,b)最小,這樣說明經過模型輸出的**值和真實值的差別最小

損失函式的最小化問題就要用梯度下降實現。

假設c(v1,v2),如下圖

這就屬於變數有兩個的情況,下面先看二維的情況,也就是變數只有乙個。

假設乙個小球在曲面上的某一點,滾動到最低點

這個就特別形象,當小球在右邊的點時,可以看到曲線斜率為正,也就是導數,表變化率為正值,這個時候令v = v - def j(x),也就是v 減去導數,會看到小球會往左邊移動,當小球在左邊的點時,斜率為負,同樣v = v - defj(x),這個時候小球會往右移動,總之最後會到達最低點。

三維的情況如下

那個係數代表學習率,如果沒有學習率係數,相當於為1,導數的本質就是單位自變數導致的因變數的變化量,學習率控制更新的快慢,我們的目的是找到最低點的w和b的值,相當於座標,學習率控制變化的步伐大小。

存在區域性最優的情況

其實就是一種利用誤差來反向更新權重和偏置的方法,就是幾個公式,重點理解下面的例子。

AI入門 反向傳播和梯度下降

上一節中提到,分類函式是神經網路正向傳播的最後一層。但是如果要進行訓練,我們只有 結果是不夠的,我們需要拿 結果跟真實值進行對比,根據對比結果判斷我們的神經網路是不是夠好。也就是說我們需要在分類函式後面增加一層 計算損失值。計算損失值這一層才是神經網路真正的最後一層。有了損失值之後,我們反過來優化每...

pytorch 梯度下降與反向傳播

在模型訓練中,損失函式用來衡量 值與真實值之間的誤差,數值越小表示誤差越小。乙個常見的選擇是平方函式。它在評估索引為 i 的樣本誤差的表示式為 可能有人想問這裡為什麼要除以1 2,其實有沒有1 2對於損失函式來說效果是一樣的,加上1 2是為了求導方便 把平方求導的係數變成1 批量樣本的損失函式是單個...

反向傳播以及梯度下降法

反向傳播 從後向前,逐層求損失函式對每層神經元引數的偏導數,迭代更新所有引數。我們訓練網路的目的就是不斷優化引數,尋找最小的損失函式,我們通過梯度下降函式來實現這個目標 乙個函式沿梯度方向下降最快 初始化引數w為5,學習率為0.2,則 1次 引數w 5 5 0.2 2 5 2 2.6 2次 引數w ...