Pytorch中adam優化器的引數問題

2022-04-28 20:45:15 字數 308 閱讀 5540

之前用的adam優化器一直是這樣的:

alpha_optim = torch.optim.adam(model.alphas(), config.alpha_lr, betas=(0.5, 0.999),

weight_decay=config.alpha_weight_decay)

沒有細想內部引數的問題,但是最近的工作中是要讓優化器中的部分引數參與梯度更新,其餘部分不更新,由於weight_decay引數的存在,會讓model.alphas都有所變化,所以想要真正部分引數

參與更新,則要關掉weight_decay

PyTorch基礎 Adam優化器使用 06

import numpy as np import torch from torch import nn,optim from torch.autograd import variable from torchvision import datasets,transforms from torch....

adam相關的優化器

adam 自出道以來,就一直是最流行的深度學習優化器,哪怕現在其實已經有幾種可能更好用的優化器 如果將 adam 優化出現以來產生的關於優化過程的有趣想法按時間順序排列的話,結果如下 這個來自 andrej karpathy 的笑話或多或少是我深度學習專案的一套流程。除非把具有學習率硬編碼的 直接從...

優化器 從SGD到 Adam

所有的優化器都是可以套進這個基本框架的。這裡的e指的是單位矩陣。sgd 沒有動量概念,因為一階動量就是當前梯度,二階梯度就是單位矩陣。缺點 容易陷入區域性最優。由於sgd只考慮當前時刻的梯度,在區域性最優點的當前梯度為0。由計算公式可知,此時引數不再進行更新,故陷入區域性最優的狀態。顯而易見,引入歷...