1、學習率(base_lr):
如果學習率較小,訓練會變得更加可靠,但是優化會耗費較長的時間,因為朝向損失函式最小值的每個步長很小。如果學習率較大,訓練可能根本不會收斂,甚至會發散。權重的改變量可能非常大,使得優化越過最小值,使得損失函式變得更糟。
備註:訣竅就是從乙個低學習率開始訓練網路,並在每個批次中指數提高學習率。為每批樣本記錄學習率和訓練損失。然後,根據損失和學習率畫圖。
首先,學習率較低,損失函式值緩慢改善,然後訓練加速,直到學習速度變得過高導致損失函式值增加:訓練過程發散。
其次,觀察計算損失函式變化率(也就是損失函式關於迭代次數的導數),然後以學習率為 x 軸,以變化率為 y 軸畫圖。
參考:
語言模型訓練
模型訓練 nohup ngram count text tieba.word.merged order 4 vocab words.txt kndiscount interpolate lm tieba.word.4gram.lm 結果測試 ngram lm tieba.word.4gram.lm ...
預訓練模型
elmo elmo是一種是基於特徵的語言模型,用預訓練好的語言模型,生成更好的特徵。而elmo的主要做法是先訓練乙個完整的語言模型,再用這個語言模型去處理需要訓練的文字,生成相應的詞向量。文字分類實戰 九 elmo 預訓練模型 在nlp領域,使用預訓練模型或元件的監督學習任務被稱為下游任務 bert...
模型訓練技巧(待續)
批訓練 batch trainning 一次訓練一批 比如50個 樣本,在nn或cnn中,對一批樣本在同相同引數的網路上進行前向過程和誤差傳導過程,然後把梯度求和加更新網路引數。優點 訓練速度可也更快,同批中的各樣本可並行訓練。dropout 模型訓練的時候隨機讓某些權重不更新。優點 為了防止過擬合...