學習筆記11 預訓練模型

2022-06-08 16:39:10 字數 550 閱讀 1511

預訓練模型就是之前用較大的資料集訓練出來的模型,這個模型通過微調,在另外類似的資料集上訓練。

一般預訓練模型規模比較大,訓練起來占用大量的記憶體資源。

然後是乙個全域性池化層,全域性池化層可以取代view

全域性池化層之後,是分類器,而我們要改的就是這個分類器

分類器需要改的地方就只有最後的輸出維度

model = models.vgg16(pretrained = true) # 載入模型,pretrained引數設定為true

for p in model.features.parameters():

p.requries_grad = false # 卷積層不變

model.classifier[-1].out_features = 4 # 分類器最後乙個全連線層的輸出維度改為4

注意訓練的時候盡量使用gpu,不然的話記憶體可能會不夠

預訓練語言模型學習筆記

bert解決長序列問題 架構設計 為了能讓機器可以讀非常長的序列,transformer xl 可以讓機器讀跨越片段的內容。為了讓自注意力的計算複雜度變小,從 o t 變成了 o tlogt 甚至更低,reformer 使用了區域性敏感性的雜湊注意力。為了讓自注意力的空間複雜度也變小,從o t 變小...

筆記nlp預訓練模型

詞向量與elmo模型 bilstm介紹與 實現 目前將預訓練語言表徵應用於下游任務存在兩種策略 feature based的策略和fine tuning策略。原始的 transformer模型由encoder和decoder組成,每個都是我們稱之為 transformer 架構的堆疊。這種架構是合理...

預訓練模型

elmo elmo是一種是基於特徵的語言模型,用預訓練好的語言模型,生成更好的特徵。而elmo的主要做法是先訓練乙個完整的語言模型,再用這個語言模型去處理需要訓練的文字,生成相應的詞向量。文字分類實戰 九 elmo 預訓練模型 在nlp領域,使用預訓練模型或元件的監督學習任務被稱為下游任務 bert...