1)《learning named entity tagger using domain-specific dictionary》
提出autoner模型,主要創新點在於**關聯關係與類別,由於邊界判錯往往不會影響內部之間的關係,能夠減小遠端監督雜訊;其次修改傳統的字典匹配方式,將部分高質量短語設定為unknown,並結合資料裁減字典。
比較有啟發性的是**關聯關係與類別結合。
2)《bond: bert-assisted open-domain named entity recognition with distant supervision》
創新點主要有二:其一利用現有語料進行bert再訓練時,引入early stopping避免過擬合;其二提出自適應的方式(文中稱為學生教師模型,較為不妥),利用兩個同樣的再訓練bert模型,其中乙個a產生的語料提公升第二個模型b的表現,之後將b的引數同步到ab兩個模型,重複此過程。
此模型主要可以借鑑的點在於自適應的訓練模式,可以用選擇乙個複雜模型乙個簡單模型,用簡單模型擬合複雜模型的提公升效果。
3) 《simplify the usage of lexicon in chinese ner》
提出lexiconaugmentedner,主要創新點在於進一步更新編碼方式,使編碼包含位置資訊與種類,對每個字元使用bmes(以該字元起始,以該字元為中間,以該字元結尾,以該字元單獨成詞)進行編碼;其次使用weighted pooling方式。
模型構造簡單,可遷移性強。編碼方式具有較大借鑑意義。
4)《flat- chinese ner using flat-lattice transformer》
創新點:將格仔結構轉換為平面結構,使用相對位置編碼,使用transformer處理更長依賴,大資料集時相容bert提公升表現。transformer+編碼改變
復現效果都達不到文章的標準,放出的**依賴庫都不穩定,不適合工業界使用,可能有未知trick,可能小樣本更適合,個人覺得工業界應用效果想象力有限。
最後,還是bert香。
重新搞了一下,在字向量訓練較好的情況下有比較明顯的提公升,尤其是對訓練語料**現過的詞彙識別效果較好,相比bert有明顯提高,缺點v1版本太慢,v0比較適合,速度快識別也有提高
AR 虛實融合文獻閱讀整理(二)
一 增強現實中虛實融合和人機互動技術的研究與應用 黃震宇 基於標誌物的識別,利用opencv和三維圖形引擎ogre實現虛實融合展示系統 人機互動方案採用primesense的深度攝像頭,通過計算機視覺處理,重建了人體三維谷歌系統定義體感語義,制定動作 指令對映表。結合體感開發平台openni,實現肢...
如何閱讀文獻
文獻分類 文章全名 作者 刊物縮寫 出版年給文章命名,用多級目錄分類對文章進行分類,文獻累計到一定程式就分類採用硬拷貝的方式進行集中整理。當一篇文章涉及多個主題的時候,多級目錄分類就不太靈光了,我目前的做法是部分兩邊都放 部分只放最重要的主題。將我的博士 分成6個小方向。然後將資料分成6個部分。每個...
文獻閱讀(1)
針對的問題 利用商用wifi裝置進行aoa估計 面臨的挑戰 天線數量的限制 相位測量中引入的未知的相位偏移 解決方案 利用人體對手機進行自然旋轉,計算不同角度測量的相位差分,以消除相位偏移,提出d music演算法計算差分生成的等效入射訊號角度。再利用慣性感測器 陀螺儀 測得的旋轉角度計算初始和最終...