使用bert有一段時間了,在專案中確實也能帶來提公升,這裡總結下bert的使用心得。
#1,資源的使用
bert在訓練的過程確實很消耗資源。
上面是bert模型在12g視訊記憶體的顯示卡上,每輪的樣本數和句子長度。
開始還擔心bert模型部署在客戶的機器上能否正常執行。後面測試發現,如果沒有太高的併發,其實在**階段對視訊記憶體的消耗並不高,大概1-2g視訊記憶體即可。
#2,模型速度
使用bert模型一定要跑在gpu上,不論是訓練還是**階段。我測試的跑在gpu上的速度是cpu的60多倍。
#3,學習速率
目前使用bert做過分類,seq2seq,序列標註,發現很多任務上,bert的學習速率不宜調的過高,否則訓練的效果很差。而且在官方**中學習速率是5e-5。而且這裡的訓練方式建議使用官方提供的優化器,官方提供的優化器學習速率是動態調整的。詳細**可見git裡面的demo3
#4,bert模型不參與訓練
在使用bert的時候,建議bert先參與訓練,然後固定住bert的引數,在訓練n輪。在我的專案中,這樣的操作最後的效果比較好。
bert不參與訓練需要調整兩個地方,乙個是在建立模型的時候is_train=false,還有乙個是bert的引數不參與反向傳播。
詳細**可見git裡面的demo3
git使用心得分享
本人從開始工作到現在一直使用的版本工具都是git 今天給一些初學者和不太了解的人分享一些常用的功能和技巧以及心得 我們從一步步開始做起,爭取讓每個人都能看完就能上手,並且明白怎麼個回事!git init 該命令會在你的資料夾中生成乙個.git檔案,如果不是必須,則千萬不用更改裡面的東西git rem...
frameset 使用心得
欲明白本篇 html徹底剖析 之標記分類,請看 標記一覽 也請先明白圍堵標記與空標記的分別,請看 html概念 框架概念 謂框架便是網頁畫面分成幾個框窗,同時取得多個 url。只需要 即可,面所有框架標記需要放在乙個總起的 html 檔,這個檔案只記錄了該框架如何分割 不會顯示任何資料,所以不必放入...
Access使用心得
今天臨時用access做資料庫,長期用sql server開發習慣了,總結一下現在為止用到的比較大的差異,以後有新的再補了 1 返回字串長度 len s lenb s 前者返回字元數,後者返回位元組數,並且access中text型別字元統一為2位元組,與sql2000不同。2 join的使用 acc...