DAY 2 動手學習深度學習

2021-10-02 23:52:12 字數 1921 閱讀 2950

【任務安排】:

task03:過擬合、欠擬合及其解決方案;梯度消失、梯度**;迴圈神經網路高階(1天)

task04:機器翻譯及相關技術;注意力機制與seq2seq模型;transformer(1天)

task05:卷積神經網路基礎;lenet;卷積神經網路高階(1天)

過擬合、欠擬合及其解決方案

過擬合、欠擬合的概念

權重衰減

丟棄法

梯度消失、梯度**

梯度消失和梯度**

考慮到環境因素的其他問題

kaggle房價**

迴圈神經網路高階

深度卷積神經網路(alexnet)

使用重複元素的網路(vgg)

⽹絡中的⽹絡(nin)

lenet、alexnet和vgg:先以由卷積層構成的模組充分抽取 空間特徵,再以由全連線層構成的模組來輸出分類結果。

nin:串聯多個由卷積層和「全連線」層構成的小⽹絡來構建⼀個深層⽹絡。

googlenet

由inception基礎塊組成。

inception塊相當於⼀個有4條線路的⼦⽹絡。它通過不同視窗形狀的卷積層和最⼤池化層來並⾏抽取資訊,並使⽤1×1卷積層減少通道數從而降低模型複雜度。

可以⾃定義的超引數是每個層的輸出通道數,我們以此來控制模型複雜度。

機器翻譯及相關技術

機器翻譯(mt):將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯(nmt)。

主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。

注意力機制與seq2seq模型

transformer

為了整合cnn和rnn的優勢,創新性地使用注意力機制設計了transformer模型。該模型利用attention機制實現了並行化捕捉序列依賴,並且同時處理序列的每個位置的tokens,上述優勢使得transformer模型在效能優異的同時大大減少了訓練時間。

卷積神經網路基礎

我們的目的是基於當前的輸入與過去的輸入序列,**序列的下乙個字元。迴圈神經網路引入乙個隱藏變數h,用ht表示h在時間步t的值。ht的計算基於xt和ht−1,可以認為ht記錄了到當前字元為止的序列資訊,利用ht對序列的下乙個字元進行**。

卷積神經網路就是含卷積層的網路。 lenet交替使用卷積層和最大池化層後接全連線層來進行影象分類。

卷積神經網路高階

rnn存在的問題:梯度較容易出現衰減或**(bptt)

⻔控迴圈神經⽹絡:捕捉時間序列中時間步距離較⼤的依賴關係

gru:

• 重置⻔有助於捕捉時間序列⾥短期的依賴關係;

• 更新⻔有助於捕捉時間序列⾥⻓期的依賴關係。

長短期記憶long short-term memory :

遺忘門:控制上一時間步的記憶細胞 輸入門:控制當前時間步的輸入

輸出門:控制從記憶細胞到隱藏狀態

記憶細胞:⼀種特殊的隱藏狀態的資訊的流動

DAY 1 動手學習深度學習

任務安排 task01 線性回歸 softmax與分類模型 多層感知機 1天 task02 文字預處理 語言模型 迴圈神經網路基礎 1天 線性回歸 從零開始的實現 推薦用來學習 能夠更好的理解模型和神經網路底層的原理 使用pytorch的簡潔實現 能夠更加快速地完成模型的設計與實現 softmax與...

機器學習 day2

歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...

爬蟲學習Day2

import requests if name main url city input enter a city data headers response requests.post url url,data data,headers headers page text response.text...