專案背景:
要做行業內文字相似性匹配,但是資料量不足,嘗試了三種方法:
1)載入網上download的預訓練網路,用少量樣本只訓練最後兩層的少量引數
2)載入網上download的預訓練網路,用少量樣本對所有網路引數進行微調
3)載入網上download的預訓練網路,用少量樣本只訓練起始兩層的少量引數
最後取得了不錯的效果
以下內容借鑑
這幅圖說明了該用哪種遷移學習,讓我們逐個來看。
1)右下角場景,待訓練的資料集較小,已訓練的模型和當前任務相似。此時可以只是重新訓練已有模型的靠近輸出的幾層,例如將imagenet中輸出層原來可以判別一萬種輸出的網路改的只能判別貓的品種,從而利用已有網路來做低層次的特徵提取。
2)左下角場景,待訓練的資料集較小,已訓練的模型和當前任務場景差距較大。例如你有的已訓練網路能識別出白天高速路上的違章車輛,你需要訓練乙個能識別出夜間違章車輛的模型,由於不管白天夜晚,交通規則是沒有變化的,所以你需要將網路靠近輸入的那幾層重新訓練,等到新的網路能夠提取出夜間車輛的基本資訊後,就可以借用已有的,在大資料集下訓練好的神經網路來識別違章車輛,而不用等夜間違章的車輛的**積累的足夠多之後再重新訓練。
3)左上角場景,待訓練的資料集較大,已有的模型和新模型的資料差異度很高。此時應該做的是從頭開始,重新訓練。
4)右上角場景,待訓練的資料集較大,已有模型的訓練資料和現有的訓練資料類似。此時應該使用原網路的結構,並保留每一層的節點權重,再逐層微調。
讀取LMDB檔案的樣本數量
在caffe中一般會把資料轉為lmdb或者leveldb格式,再做訓練,加速訓練過程。如何讀取lmdb檔案呢?比如需要獲知某個lmdb檔案的樣本數量。在python下,比較簡單,生成lmdb後,可以用如下的 獲取 import lmdb env lmdb.open lmdb path txn env...
如何確定抽樣的樣本數量
總體為9200人,預設的整體置信度為95 最大容許誤差為正負5 求樣本容量 網上搜到的第乙個有價值的內容如下 題目某公司對60000人中的吸菸比例做調查,置信度為95 的情況下,若要使誤差保持在4 以內,需要的最小樣本容量是 這裡並沒有告訴總體的方差 標準差 和樣本方差 標準差 那到底應該怎樣做呢?...
機器學習樣本資料集,訓練正負樣本
1 caltech 101 資料庫 該資料庫在2003年被發布,包括101類目標影象和1類背景影象,共102類,彩色影象較多,有部分灰度影象。總共影象數為9145 除去背景後總數為8677 每類影象數大約在31 800之間,影象大小為300 200。此資料庫的特點是 每個影象只含有乙個目標,且目標大...