【第13次訓練】
增加拉伸壓縮的多樣性:
scale_list1 = [0.7,0.75,0.8,0.85,0.9,0.95]
scale_list2 = [1/x for x in scale_list1 ]
結束標誌:平均acc達到0.999
在真實資料上測試結果:
字元準確率:95%
word 準確率:75%
真實樣本總數:124
全部正確數:93
錯1-2個數:30
其他:1
【第13.1次訓練】
結束標誌:平均acc達到0.9995
在真實資料上測試結果:
字元準確率:95%
word 準確率:75%
真實樣本總數:124
全部正確數:93
錯1-2個數:30
其他:1
沒啥變化。
【第13.2次訓練】
結束標誌:訓練完成,迭代51200次
在真實資料上測試結果:
字元準確率:94.8%
word 準確率:71.7%
真實樣本總數:124
全部正確數:89
錯1-2個數:32
其他:3
【第14次訓練】
結束標誌:平均acc達到0.999
在真實資料上測試結果:
字元準確率:94.0%
word 準確率:69%
真實樣本總數:124
全部正確數:86
錯1-2個數:34
其他:4
下一步,看一下黑白圖效果會不會有提公升。
【第15次訓練】
對syn圖做了二值化處理,二值化後調整到(-1,1)之間,去訓練。明天來了看結果。
後續可以加上 refine 圖同樣處理。
一共儲存了5個模型,分別是0.9990,0.9995,0.9997,0.9999,end, 但是不知道為什麼,執行了一夜,end還是沒有執行完成,不知道咋回事,待查證。所以實際是4個模型。效果最好的是9999,所以其他就不記錄了
結束標誌:平均acc達到0.9999
在真實資料上測試結果:
字元準確率:90%
word 準確率:55%
真實樣本總數:124
全部正確數:69
錯1-2個數:43
其他:12
在這次測試中,acc2_list 中,仍然有17張圖識別錯誤。可能需要再進一步分析這些識別錯誤的字元是不是總是同乙個字元,另外是不是總被識別成同乙個字元,這是兩件事情。
【第16次訓練】
加入refine,也黑白化後訓練。
結束標誌:平均acc達到0.995
在真實資料上測試結果:
字元準確率:95.7%
word 準確率:74.1%
真實樣本總數:124
全部正確數:92
錯1-2個數:30
其他:2
因為截止準確率只有0.995,基本可以達到目前最好識別效果(僅次於13),所以可以看看最後訓練完成是什麼樣。
OCR學習記錄
最近對驗證碼識別做了一些研究,主要是ocr方向的,一些總結記錄一下。識別captcha後面跟了很多參考文章都講解的很詳細了,做orc不難,難點在於如何提高識別率。基本流程如下 1.原圖 2.預處理 去噪點 3.標準化 灰度變換,二值化,歸一化 4.image segment 個人感覺這個比較難,有很...
HDU訓練記錄2 基礎數字dp
題目描述 傳送門題意 求0 n中含 49 的數的個數。題解狀態 f i j 表示i位數所有以j開頭的數中合法 不含 49 的數的個數。轉移 if j 4 k 9 f i j f i 1 k 列舉jk分別為i和i 1位數的開頭並且滿足條件。求解時用總數減去dp值。注意 這道題傳m 1的話有可能爆lon...
20160814訓練記錄
t1 題意 給定n 求能組成多少個三角形 題解 列舉三個點,但是切記不要用距離算,會有精度誤差 因為這樣三個點只要不在乙個直線上就行 那麼即可t2 題意 給定100個長度小於100的關鍵字串,給出十篇文章,對於每一篇文章回答是否都包含所有關鍵字串 題解 文章長度1000000 目測一下應該kmp優秀...