大二小白,剛剛接觸機器學習。如果有任何問題,希望各位批評指正。stochastic gradient descent 隨機梯度下降演算法互相關注,共同進步呀。
feature scaling 特徵縮放
?∗ = arg min ?(?) l: loss function ?: parameters
在上節課說道,我們在得出最後的 loss function 之後,通過求得loss function的最小值可以得到乙個最小的引數θ
θ越大,代表著我們擬合的函式越不準確。
而不準確就意味著需要繼續進行迭代更新。
那麼如何進行更新呢?在上節課已經講到了:
首先就需要找到乙個θ0和θ1作為起始的引數,怎麼找?隨機找,使用random函式或者其他方法。
在圖中運用矩陣闡述了更新的方法,
這裡要說明的是,在吳恩達機器學習的課程中提到:引數的更新是同時的,不是穿插進行更新的
learning rates 代表了學習速率的快慢,learning rates越大,梯度下降得就越快。
正所謂做事需要有工匠精神,好高騖遠必將一事無成。
所以如果leanring rates 非常大,就會導致我們所更新的θ非常迅猛,θ變化了,loss function就會變得越來越大。
當然learning rate 也不能太小,除非有足夠的耐心和時間等它慢慢磨。
在左邊的圖中:
這樣的視覺化是一維或者二維圖型,我們想研究更高維的圖型的話就需要像右邊的影象一樣進行資料視覺化
可以把橫座標理解為迭代次數:
有這種情況的問題就是,隨著迭代次數的增加,我們的learning rates卻不變,或許一開始的learning rates不是很大,但是迭代次數增多了,如果θ變小了,相對於此時的θ,learning rates 就顯得有些大了。所以我們希望能夠讓learning rates自己變化,自己調節,從而我們能夠更好得達到目的
所以引申出演算法:adaptive learning rates 自適應學習率
自我調節的學習率的目的是更方便得得到想要的結果,減少人為得去試錯learning rates的工作量
乙個簡單的思想:通過一些因子在每次迭代的時候減少學習率
比如使用下圖所示的函式,t表示迭代的次數
即使這樣,我們也需要做到:對於不同的引數,我們給出的learning rates也要不盡相同。
文字描述頗為複雜也意義不大,在這裡不多加贅述,所以使用數學描述更加直觀和方便理解(就是直男不會說話……)
和一般的梯度下降不一樣的是,隨機梯度下降是隨便取一組引數就作為我們的數值得到loss function 和目標引數的更新:
這樣的做法加快了我們更新引數的速率和效果
在左邊的圖中,當我們用原本的方法去求得loss function時候,得到的只會是乙個數值,這個數值不一定是全域性最優解。
但是在右邊的圖中,我們通過隨機得去求得loss function,或許跨度十分得大,但是似乎離我們的最優解更加得靠近了。
特徵縮放的作用是防止引數值得差距非常大,導致小的引數值對最後結果的「貢獻」十分得小。
比如:
對x1和x2來說,x1和x2的分布範圍的差距非常大,所以我們就需要進行特徵縮放,讓兩個特徵值得範圍差不多。
那為什麼要進行特徵縮放呢?
我們詳細解釋一下以下這張圖
對於左邊的圖:
對於右邊的圖
** 實現縮放的方法**
這個方法在吳恩達機器學習也有強調
對第r個例子的第i次輸入:用當前資料減去平均值再除以標準差即可。
後面就是數學補充部分,就不再贅述了。
李巨集毅機器學習之邏輯回歸筆記
x 和 w 都是向量,可以從樸素貝葉斯推出來這個公式 假設每個樣本都是基於 f x p left c mid x right 該函式,所以可以得到訓練資料的可能性函式,使之最大的引數就是最好的引數。將函式取log,並且轉化為求最小值的問題,將c1,c2換為取值為0,1的y1,y2 經過轉換得到兩個變...
李巨集毅機器學習 學習筆記
function set就是model 機器學習3大步驟 1.定義模型 function 集合 2.指定模型 function 好壞的評價指標 3.通過演算法選擇到最佳的模型 function alphago下棋模型抽象為棋局向下一步的分類問題 減少擁有label的data用量的方法 1.semi ...
李巨集毅機器學習 1 回歸
案例學習 寶可夢的cp值 step 2 goodness of function step3 best function w 1 w 0 eta frac 多次迭代直到達到極小值 對於有多個引數的模型,將微分改為偏微分,分別更新每個引數,以兩個引數 w 和 b 為例 存在的問題 saddle poi...