1)網路結構:
resnet提取影象表徵 fc
初始化位置特徵,p1, p2,… p21, 總共21長度。
2)提取的影象標準fc也是序列特徵,資料都是定長的,所以,將序列特徵均勻劃分到每個位置序列特徵,進行拼接。這樣,每個位置序列特徵上都有對應的字元內容表徵。
每個 位置特徵上拼接影象標註fc
3)然後,讓bilstm再去自動根據上下文關係,學習每個位置的字元。
拼接好的位置特徵, 經過bilstm
每個時刻的輸出狀態特徵,經過 fc + softmax 啟用。
fc: 將提取到的特徵向量,softmax( w x + b )
w是乙個權重矩陣,學習每個類別的權重,然後使用softmax啟用,得出每個矩陣的概率。
資料:給定資料集:10000條資料作為訓練集。
涵蓋幾十種字型,畫素大小也各不相同,排版方式複雜,語言也很多種。
原始,+ 文字框四個點座標(裡面是標註的文字)最小外接矩形,確定要扣取的文字區域,小於45度,轉為水平;大於45度,轉為垂直,最後將垂直的轉為水平(傾斜處理)
2. 對文字進行角度處理,然後歸一化成 同一尺寸。
的寬高統計,選取高度,寬度,為啥???
寬高比統計,寬高比為6,覆蓋85%左右。
歸一化: 寬32, 寬高比:6.
字串長度統計:模型序列**長度:21, 覆蓋99%的長度,長度超過21的,不到1%左右。
訓練集類標統計:中文4085(簡體,繁體),英文和數字(半形,全形??需要統計嗎??)62全形,62半形,符號220類。統計在訓練集**現的頻數。
最終確定,模型序列**類標: 國標1級簡體漢字常用的3500個,1000個繁體漢字,和訓練集**現的所有漢字,26個英文本母,和10個數字,共5302個類別。
資料生成(文字合成)
類標太多,平均乙個類標就幾個學習資料,所以需要合成大量與訓練集相似的文字,充分發揮模型的潛力,提高模型在測試集上的準確率。
生成文字序列(比較重要,畢竟文字是核心)
根據訓練集的資料分布情況,控制生成的比例。
控制比例:1)語種種模擬例(純中文、純英文(數字)、純符號、混合型),
2)每個字的字頻,(訓練集中字頻統計,生成時更新頻數,為0就不生成)
3)字串長度比例,(21覆蓋99%,各個長度比例要控制)
4)某些字元不能與其他字元在一起。(簡體不能和繁體在一起,中文裡面是全形符號,英文是半形符號)
背景合成
模型構建:
加深的殘差網路,比加深的cnn更容易優化。
採用101層的resnets,學習網路文字影象的特徵,給定乙個文字,歸一化為固定尺寸,輸入101層resnets網路進行特徵提取,輸出全域性特徵向量(表示整個文字序列的特徵),我們需要識別出每個位置的字元。
全域性特徵向量與位置序列向量p???結合起來,網路對該位置的字元特徵自動學習和選擇。 生成合成向量。
合成向量 輸入到bilstm(全連線層,softmax),得到文字序列每個位置的字元編碼,每個類別的概率,確定是哪個字元。
訓練資料識別出的有用的文字區域143532個,8:1:1進行劃分,劃分時參照語種比例,序列長度,字頻這些,橫豎比例。
合成:467552個,
後期分析:
計算各個類別準確率, 純中文,英文和數字,純符號,或者混合型的,
發現英文數字的準確率很低。混合型的。
有些過長的,大於21,被砍掉的。能補的補上去。
暑期總結 網路流
一張圖中每條邊都有同一時間能承載的最大資料量,求最大網路流即求從起點到終點同一時間能運輸的最大資料量。找到一條從起點到終點的路,那麼這條路上運輸的資料量為權值最小的邊的權值,然後再依次做下去,但這樣過早地阻塞了後面的流,會造成無法得到最優解。解決的方法是新增一條反向邊,如果邊 流過了k 那麼反向邊 ...
http協議總結 網路基礎篇
tcp ip是網際網路相關的各類協議族的總稱。協議中存在各種各樣的內容,從電纜的規格到ip位址的選定方法。尋找異地使用者的方法。雙發建立通訊的順序,以及web頁面顯示需求的處理 如上圖,是對tcp ip協議的一種描述。分層管理 tcp,ip協議按層次分分為 應用層 傳輸層 網路層 資料鏈層 應用層 ...
傳智播客學習總結 網路程式設計
tcp ip 協議 udp user datagram protocol 是一種不安全的面向無連線的協議,每乙個 packet 都有自己完整的 和目的資訊,所以並不能保證 packet 到達接收方的時間和準確性,每次傳送資料大小也限定在 64kb 以內。tcp transfer control pr...