專案總結 網路文字識別

2021-09-13 23:54:36 字數 1831 閱讀 9870

1)網路結構:

resnet提取影象表徵 fc

初始化位置特徵,p1, p2,… p21, 總共21長度。

2)提取的影象標準fc也是序列特徵,資料都是定長的,所以,將序列特徵均勻劃分到每個位置序列特徵,進行拼接。這樣,每個位置序列特徵上都有對應的字元內容表徵。

每個 位置特徵上拼接影象標註fc

3)然後,讓bilstm再去自動根據上下文關係,學習每個位置的字元。

拼接好的位置特徵, 經過bilstm

每個時刻的輸出狀態特徵,經過 fc + softmax 啟用。

fc: 將提取到的特徵向量,softmax( w x + b )

w是乙個權重矩陣,學習每個類別的權重,然後使用softmax啟用,得出每個矩陣的概率。

資料:給定資料集:10000條資料作為訓練集。

涵蓋幾十種字型,畫素大小也各不相同,排版方式複雜,語言也很多種。

原始,+ 文字框四個點座標(裡面是標註的文字)最小外接矩形,確定要扣取的文字區域,小於45度,轉為水平;大於45度,轉為垂直,最後將垂直的轉為水平(傾斜處理)

2. 對文字進行角度處理,然後歸一化成 同一尺寸。

的寬高統計,選取高度,寬度,為啥???

寬高比統計,寬高比為6,覆蓋85%左右。

歸一化: 寬32, 寬高比:6.

字串長度統計:模型序列**長度:21, 覆蓋99%的長度,長度超過21的,不到1%左右。

訓練集類標統計:中文4085(簡體,繁體),英文和數字(半形,全形??需要統計嗎??)62全形,62半形,符號220類。統計在訓練集**現的頻數。

最終確定,模型序列**類標: 國標1級簡體漢字常用的3500個,1000個繁體漢字,和訓練集**現的所有漢字,26個英文本母,和10個數字,共5302個類別。

資料生成(文字合成)

類標太多,平均乙個類標就幾個學習資料,所以需要合成大量與訓練集相似的文字,充分發揮模型的潛力,提高模型在測試集上的準確率。

生成文字序列(比較重要,畢竟文字是核心)

根據訓練集的資料分布情況,控制生成的比例。

控制比例:1)語種種模擬例(純中文、純英文(數字)、純符號、混合型),

2)每個字的字頻,(訓練集中字頻統計,生成時更新頻數,為0就不生成)

3)字串長度比例,(21覆蓋99%,各個長度比例要控制)

4)某些字元不能與其他字元在一起。(簡體不能和繁體在一起,中文裡面是全形符號,英文是半形符號)

背景合成

模型構建:

加深的殘差網路,比加深的cnn更容易優化。

採用101層的resnets,學習網路文字影象的特徵,給定乙個文字,歸一化為固定尺寸,輸入101層resnets網路進行特徵提取,輸出全域性特徵向量(表示整個文字序列的特徵),我們需要識別出每個位置的字元。

全域性特徵向量與位置序列向量p???結合起來,網路對該位置的字元特徵自動學習和選擇。 生成合成向量。

合成向量 輸入到bilstm(全連線層,softmax),得到文字序列每個位置的字元編碼,每個類別的概率,確定是哪個字元。

訓練資料識別出的有用的文字區域143532個,8:1:1進行劃分,劃分時參照語種比例,序列長度,字頻這些,橫豎比例。

合成:467552個,

後期分析:

計算各個類別準確率, 純中文,英文和數字,純符號,或者混合型的,

發現英文數字的準確率很低。混合型的。

有些過長的,大於21,被砍掉的。能補的補上去。

暑期總結 網路流

一張圖中每條邊都有同一時間能承載的最大資料量,求最大網路流即求從起點到終點同一時間能運輸的最大資料量。找到一條從起點到終點的路,那麼這條路上運輸的資料量為權值最小的邊的權值,然後再依次做下去,但這樣過早地阻塞了後面的流,會造成無法得到最優解。解決的方法是新增一條反向邊,如果邊 流過了k 那麼反向邊 ...

http協議總結 網路基礎篇

tcp ip是網際網路相關的各類協議族的總稱。協議中存在各種各樣的內容,從電纜的規格到ip位址的選定方法。尋找異地使用者的方法。雙發建立通訊的順序,以及web頁面顯示需求的處理 如上圖,是對tcp ip協議的一種描述。分層管理 tcp,ip協議按層次分分為 應用層 傳輸層 網路層 資料鏈層 應用層 ...

傳智播客學習總結 網路程式設計

tcp ip 協議 udp user datagram protocol 是一種不安全的面向無連線的協議,每乙個 packet 都有自己完整的 和目的資訊,所以並不能保證 packet 到達接收方的時間和準確性,每次傳送資料大小也限定在 64kb 以內。tcp transfer control pr...