機器學習(第十周) 適用大資料的演算法

2021-08-20 21:21:27 字數 1470 閱讀 2316

1、隨機梯度下降

批量梯度下降在運用到樣本資料較多的情況下,計算量會非常的大,更適合選用隨機梯度下降方式

批量梯度下降,在計算θ值過程中每次迭代要讀入全體樣本資料,每次計算m個加和項迭代

隨機梯度下降,只考慮乙個樣本的計算結果,每次迭代只計算乙個樣本的θ迭代

隨機梯度下降

兩種演算法迭代方式是不同的

批量梯度下降,每次迭代就會逐漸收斂,最終收斂到中心點

隨機梯度下降,隨機梯度下降收斂過程跟樣本選取有關,迭代過程會較為隨機,最終會集中在收斂區域附近

最小批量梯度下降方法是介於批量梯度下降和隨機梯度下降之間的演算法,如果有較好的向量實現演算法,最小批量梯度下降下降效果要好於隨機梯度下降

舉例如下:

隨機梯度下降演算法如何選擇學習

左上角圖代價cost圖代表下降已經收斂

右上角圖代表cost圖增大最小梯度下降的樣本量可以更好的收斂

左下角圖代表代價函式雜訊太大看不出明顯的下降,可以嘗試用更大的樣本訓練,檢驗成本函式是否在下降;如果更大的樣本訓練結果仍然比較平台,說明你的演算法沒有很好的學習樣本資訊,需要調整學習速率或者特徵值,或者其他的內容

右下角圖代表學習速率太大,需要降低學習速率

輸入資料發生變化之後,引數θ也會在學習過程中自我進行適應

使用map-reduce進行機器學習之前,首先需要確認你的演算法是否為對訓練樣本求和計算

通過把大量的計算過程拆分成多個子任務分配給不同的電腦運算,提高執行的效率,最終在彙總在乙個電腦上彙總最終計算結果

map-reduce結構:

第十周學習進度

第十周所花時間 包括上課 分鐘。分鐘,準備第二衝刺階段材料 60分鐘。週三 閱讀課本60 分鐘。周四 上實驗課110 60分鐘。周五 閱讀課本60 分鐘。週六 閱讀課本60 分鐘。週日 編寫進度條部落格60 分鐘。量 行 50行左右 天氣貼士 團隊專案 部落格量 篇 1篇第十周學習進度 了解到的知識...

第十周學習總結

1通過file類開啟乙個檔案 2通過位元組流或字元流的子類指定輸出位置。3經行讀寫操作。4.關閉輸入輸出。一.位元組流 位元組流以操作byte型別資料為主,主要操作類為outputstream類和inputsream類。位元組輸出流outputstream是整個io包中位元組輸出流最大父類,其操作方...

第十周學習總結

1 file類 使用file類可以對檔案進行刪除檔案 建立檔案 2file類是唯一表示與檔案本身有關的類,使用file類時,必須要設定路徑 使用file類可以對檔案進行刪除檔案 建立檔案 判斷檔案是否存在等一系列操作。3 outputstreamwriter和inputstreamreader 在整...