線性回歸演算法梳理

2021-09-22 10:09:01 字數 1124 閱讀 6174

根據學習過程中的不同經驗,機器學習演算法可以大致分類為無監督(unsuper-vised)演算法和監督(supervised)演算法。無監督學習演算法(unsupervised learning algorithm)訓練含有很多特徵的資料集,然後學習出這個資料集上有用的結構性質。在深度學習中,我們通常要學習生成資料集的整個概率分布,顯式地,比如密度估計,或是隱式地,比如合成或去噪。還有一些其他型別的無監督學習任務,例如聚類,將資料集分成相似樣本的集合。監督學習演算法(supervised learning algorithm)訓練含有很多特徵的資料集,不過資料集中的樣本都有乙個標籤(label)或目標(target)。例如,iris 資料集註明了每個鳶尾花卉樣本屬於什麼品種。監督學習演算法通過研究iris 資料集,學習如何根據測量結果將樣本劃分為三個不同品種。

對於機器學習我們實際希望的,是在新樣本上能表現得很好的學習器.為了達到這個目的,應該從訓練樣本中盡可能學出適用於所有潛在樣本的"普遍規律",這樣才能在遇到新樣本時做出正確的判別.然而,當學習器把訓練樣本學得"太好"了的時候,很可能巳經把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導致泛化效能下降這種現象在機器學習中稱為「過擬合" (overfitting). 與"過擬合"相對的是"欠擬合" (underfitting) ,這是指對訓練樣本的一般性質尚未學好。

代價函式(cost function )是定義在整個訓練集上的,是所有樣本誤差的平均,也就是損失函式的平均。

目標函式(object function)定義為:最終需要優化的函式。等於經驗風險+結構風險(也就是cost function + 正則化項)。

關於目標函式和代價函式的區別還有一種通俗的區別:

目標函式是最大化或者最小化,而代價函式是最小化。

隨機梯度下降最大的缺點在於每次更新可能並不會按照正確的方向進行,因此可以帶來優化波動(擾動)。不過從另乙個方面來看,隨機梯度下降所帶來的波動有個好處就是,對於類似盆地區域(即很多區域性極小值點)那麼這個波動的特點可能會使得優化的方向從當前的區域性極小值點跳到另乙個更好的區域性極小值點,這樣便可能對於非凸函式,最終收斂於乙個較好的區域性極值點,甚至全域性極值點。

優點:訓練速度快,每次迭代計算量不大

缺點:準確度下降,並不是全域性最優;不易於並行實現;總體迭代次數比較多。

牛頓法與擬牛頓法可以參考牛頓法與擬牛頓法

線性回歸演算法梳理

機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...

線性回歸演算法梳理

有監督 資料做過標記 無監督 對原始資料進行處理,未做標記 泛化能力 由訓練資料建立的模型對同類問題的解決能力 過擬合 模型過於複雜導致解決問題能力差 欠擬合 模型過於簡單導致擬合資料的能力差 方差和偏差以及各自解決辦法 交叉驗證 當資料比較少時,將資料分成n份,取n 1份做訓練集,1份做驗證集,改...

線性回歸演算法梳理

監督學習 資料集中的每個樣本有相應的標籤,根據這些樣本做出 無監督學習 資料集中沒有標籤。無監督學習的任務是從給定的資料集中,找出可能具有的結構。泛化能力 指乙個機器學習演算法對於沒有見過的樣本的識別能力。過擬合欠擬合 方差和偏差以及各自解決辦法 欠擬合 模型沒有很好地捕捉到資料特徵,不能夠很好地擬...