動手學深度學習 Task07筆記彙總

2021-10-03 05:49:55 字數 1582 閱讀 5948

演算法細節不是很感興趣,就看了看軌跡理解了一下

1.指數加權移動平均ema

2.adagrad:給各維度各自的學習率、沒用到ema、出現梯度消失的原因是自適應學習率分母的不斷累加使其存在最終趨於0的可能

3.rmsprop:利用ema解決了adagrad梯度消失的問題

4.adadelta:基於rmsprop的改進演算法,其只有乙個超引數

5.adam:使用了momentum演算法,其是rmsprop與momentum的結合

補充內容可參考:魏秀參cnn book, 以及cnn trick

關於nlp 領域推薦:

regularizing and optimizing lstm language models(lstm 的訓練技巧)

massive exploration of neural machine translation architectures(nmt 裡各個超參的影響)

training tips for the transformer model(訓練 transformer 時會發生的各種現象)

cv :

training imagenet in 1 hour(大批量訓練技巧)

bag of tricks for image classification with convolutional neural networks(各種訓練技巧集大成)

bag of freebies for training object detection neural networks(同上)

efficientnet: rethinking model scaling for convolutional neural networks(當前對引數利用最有效的 cnn,類似地還有一篇 efficientdet)

是詞嵌入工具,將詞表示定長的向量,通過在語料庫上的預訓練使得這些向量可以表達不同詞之間的相似和模擬關係,從而引入語義資訊。

1.基於概率模型的兩種w2v:skip-gram、continuous bag-of-words

也就是用條件概率來表示背景次與中心詞的關係

2.語料庫是什麼?例如penn tree bank小型語料庫,就是文章取樣,包括三集

w2v會學著去刻畫離散詞到連續空間中向量的對映

3.二次取樣:為什麼與低頻詞同時出現會對訓練w2v模型更有益?物以稀為貴嗎

思想就是,詞頻越高,在二次取樣時就會以更大的概率被丟棄

4.skip-gram跳字模型:

可參考:

負取樣:

one-hot和word2vec的區別:

1.上面的w2v仍然不夠完美:

2.?預訓練得到的詞向量,就相當於這裡的標籤是真實資料集的統計概率,輸出則是條件概率,用刻畫分布距離的度量來學

3.應用:求模擬詞和近義詞

4.什麼叫做好的模型設計則能提高「模型的上界」?

5.關於glove:

6.求模擬詞時可以復用求近義詞的**:求模擬詞時我們先會對給定的三個詞的詞向量進行加減運算,以得到乙個虛擬的詞向量,再去求這個虛擬詞向量的近義詞,就可以找到模擬詞

7.啊2023年了普通小市民的計算能力和資源還是不夠,只能載入別人的預訓練模型然後調調

動手學深度學習 Task08筆記彙總

終於來到了我感興趣的東西,如何教會機器進 感分析。目標是通過給定的不定長文字序列輸出情緒類別,運用了預訓練的詞向量和多隱藏層的雙向rnn和cnn,是詞嵌入的下游應用。隨機改變樣本從而降低模型對屬性的依賴性,並且也可以擴大資料集規模。例如 翻轉 裁剪 變化顏色 亮度 對比度 跑合度 色調 以及以上各種...

動手學深度學習 task01

task 1 線性回歸 多層感知機 softmax函式 1 線性回歸作為基本的機器學習演算法,實現較簡單,應用廣泛。以下為用pytorch編寫的線性回歸類 import torch.nn as nn import torch from torch.autograd import variable f...

動手學深度學習Task3

過擬合 欠擬合及其解決方案 梯度消失 梯度 迴圈神經網路高階 1 過擬合和欠擬合 過擬合 模型的訓練誤差遠小於它在測試資料集上的誤差,我們稱該現象為過擬合 欠擬合 模型訓練誤差無法降低.如何應對欠擬合和過擬合?在這裡我們重點討論兩個因素 模型複雜度和訓練資料集大小。1.1.1 模型複雜度 為了解釋模...