8 深度學習軟體
梯度下降法存在的問題:
1.如果損失值在某乙個方向下降很快而在其他方向下降很慢,梯度下降過程會成為乙個「之」字形,導致其在水平方向前進速度緩慢,這種現象在高維空間普遍出現
2.高維問題中,更容易陷入區域性最優解,無法跳出;鞍點(saddle point):某些方向損失增加,某些方向損失減小,這個問題也在高維度時尤為突出
3.隨機性會引入雜訊
解決方法:sgd+momentum(帶動量的sgd)
思想:保持乙個不隨時間變化的速度,將梯度估計新增到這個速度上,在後在這個速度的方向上前進,而不是在梯度方向上前進
adagrad:優化過程中,保持訓練過程中每一步的梯度平方和持續估計;但如果時間過長的話,更新步長會變得越來越小。
變體:rmsprop,嘗試讓所有維度做出相同改進
改進:不是簡單地累加梯度平方,而是讓平方梯度按照一定比率下降
adam:解決未知新問題的預設演算法
引數選擇:
關於學習率的挑選:
根據loss變化及時調整學習率;右側圖運用了學習率衰減達到優化損失函式的目的
函式優化完畢後,如何提高模型在測試集上的表現呢?
模型整合:
1.訓練多個不同的模型
2.平均多個模型的**結果
技巧:
正則化:提高單一模型效果的一種方法
dropout:每次在網路中正向傳遞時,在每一層(一般是在全連線層;或者卷積層)隨機將部分神經元(啟用函式)置零
注:可以將其看為訓練乙個大型的共享引數的整合模型
此方法存在的缺點:輸出的結果具有隨機性;可以用區域性逼近的方法解決這一問題,即對於**函式,用dropout的概率乘以輸出層的輸出
dropconnect:隨即將權重矩陣某些值置零
批量歸一化;
資料增強:
在不改變標籤的前提下對資料進行轉換,在訓練時將這些隨機轉換應用於輸入資料
水平翻轉;隨機裁剪;色彩抖動
部分最大池化(不常用):
消除隨機性:
1.適用固定的池化區域
2.選取很多樣本後取平均
優點:1.可以輕鬆構建和使用乙個龐大地計算圖
2.便於計算梯度
3.gpu上執行高效
這裡快進了tensorflow,重點學習對於pytorch的介紹
torch三大抽象:
張量tensor
變數variable:在計算圖中的節點;可做自動梯度等計算
nn(自定義模組);optim;dataloader(建立分批處理;打包資料)等詳細可見pytorch自用學習筆記系列
預訓練模型:
visdom:視覺化損失統計
靜態圖:只建立一次,然後不斷地復用
動態圖的應用:recurrent networks(迴圈網路);recursive networks;modularnetworks(遞迴網路)
電腦科學概論第三週學習
電腦科學概論第三週學習 上節回顧 第4,5 章學習內容 重點內容 識別基礎的門並描述每種門的行為 門 非 not 門,與 and 門,或 or 門,異或 xor 門,與非 nand 門,或非 nor 門 重點內容 讀懂計算機廣告 i5 是一種處理器 fsb 前端匯流排,處理器與外界的主要連線線 19...
李飛飛 為什麼計算機視覺對機械人如此重要?
根據guide2research的排名,iros是計算機視覺領域排名第四的學術會議,前三名分別為cvpr iccv eccv。計算機視覺在機械人的發展史中起著非常重要的作用,與之相關的 感知 也正是歷年iros大會上的重要內容,隨著機械人研究的發展和 越來越接近人類 這個目標的進一步深入,越來越多的...
計算機組成第三週 算術邏輯單元
現代積體電路中通常使用mos電晶體 metal oxide semiconductor 金屬 氧化物 半導體 cmos積體電路 complementary mos 由pmos和nmos共同構成的互補型mos積體電路 d觸發器 d flip flop,dff 例 取樣後經過1秒,傳送到輸出 clk t...