我們準備使用基於attention的方法來實現數字公式識別的任務~
1. gcnet, bleu: 89.72
模型:gcnet
**:global context-based network with transformer for image2latex
**:未開源
2. mer-dattn, bleu: 88.42
**:未開源
2. im2tex, bleu: 87.73
模型:im2tex
**:image-to-markup generation with coarse-to-fine attention
**:已開源(
資料集中有空白:
資料集中有全部是空白的,(後面預處理時會直接截取出空白的);
資料集樣本數:103536個
(formula_images資料夾中會多乙個texput.log檔案)
採用「最小格式」標註:
這樣之後,可能會存在難以閱讀的情況,需要加入「閱讀模式」對長公式**進行排版;
由於給出的是一整個紙張大小的png,所以還需要進行裁剪;
預處理生成的影象大小不統一,我們將統一padding到相同的大小;
模型整體結構時基於transformer來實現的,
關於transformer的解讀請參考《transformer **完全解讀!》
主幹網路使用的是resnet34_vd;
權值初始化使用了kaiming初始化的方法;
對於模型本身,在前向推理的時候沒有使用「置信度啟用」;
不過在訓練的時候,我們加入了「softmax」對概率值進行了「非線性啟用」,這樣可以幫助模型的收斂;
note:在模型的最後,則不需要加入softmax函式,
因為softmax是乙個單調增函式,為了降低計算量,我們在推理時也就不用再經過softmax的運算了。
在南溪看來,word embedding是一項很好的技術;
它將單詞用embedding進行表示,從而使得embedding具有了(在距離上的)語義資訊;
那麼word-embedding技術如何用於數字公式識別呢?
其實這裡是使用了一種類似於self-supervised的思想,首先我們假設:
我們可以從單詞的one-hot編碼,對映出一種多維度的特徵,
這裡有點像「轉置卷積」中的「補繪」的思想!
所以我們的目標就是學習出這樣的embedding,
這裡我們首先建立了模型的對映關係,然後用模型表達出來,對結果進行有監督地訓練;
從而完成了embedding的自監督學習;
數字公式識別的學習筆記(legacy)
為了提高訓練的速度 我們遵循了原始 的預處理,對影象進行了2倍下取樣,基於norm的預處理方法是由image to markup在 中提出的,在 的github repo中,使用了python和js 來完成預處理的功能,我當時覺得很奇怪,為什麼要用js的 後來想到,這是因為對於latex的語法檢查,...
人臉識別的深度學習
深度學習只不過是機器學習的標準範例,更準確地說 是其演算法之一。在最大程度上,它基於人腦的概念和神經元的相互作用。如果你開始谷歌搜尋深度學習是什麼,你會發現今天這個超級熱門詞遠遠不是新的。為什麼這樣?該術語本身出現在20世紀80年代,但到2012年,沒有足夠的力量來實施這項技術,幾乎沒有人關注它。在...
人臉識別的深度學習
深度學習只不過是機器學習的標準範例,更準確地說 是其演算法之一。在最大程度上,它基於人腦的概念和神經元的相互作用。如果你開始谷歌搜尋深度學習是什麼,你會發現今天這個超級熱門詞遠遠不是新的。為什麼這樣?該術語本身出現在20世紀80年代,但到2012年,沒有足夠的力量來實施這項技術,幾乎沒有人關注它。在...