《統計自然語言處理》學習筆記
由字構詞的漢語分詞方法(2002)
由字構詞的漢語分詞方法的思想:它是將分詞的過程看作字的分類問題。在以往的分詞方法中,無論是基於規則的方法還是基於統計的方法,一般都依賴於乙個事先編制的詞表,自動分詞的過程就是通過查詞表作出詞語切分的決策,與此相反,由字構詞的分詞方法認為每個字在構造乙個特定的詞語時都佔據著乙個確定的構詞位置(即詞位)假如每個字只有4個詞位:詞首(b),詞尾(e),詞中(m),單獨成詞(s)
上海/計畫/到/本/世紀/末/實現/人均/國內/生產/總值/五千美元/。
上/b 海/e 計/b 劃/e 到/s 本/s 世/b紀/e末/s 實/b現/e 人/b均/e 國/b內/e 生/b產/e 總/b值/e 五/b 千/m美/m元/e 。/s
其中字 包括 漢字 標點符號 外文本母 注音符號 阿拉伯數字等可能出現在漢語文字中的文字元號,所有的這些字元都是又字構詞的基本單元。
分詞結果表示成字標註形式之後,分詞問題就變成了序列標註問題。
通常情況下,使用基於字的判別模型時需要在當前字的上下文中開乙個w個字的視窗,在這個視窗裡抽取分詞的相關的特徵。常用的模板有多種(5)。
由字構詞的分詞技術的重要優勢在於,它能夠平衡地看待詞表詞和未登入詞識別問題,文字中的詞表詞和未登入詞都是用統一的字標註過程來實現的分詞過程成為字重組的簡單過程。在學習架構上,既可以不必專門強調詞表詞資訊,也不用專門設計特定的未登入詞識別模組,因此,大大簡化了分詞系統的設計。
基於詞感知機演算法的漢語分詞方法(2007)
常用的判別式模型:最大熵,條件隨機場,支援向量機和感知機
NLP筆記 分詞
分詞標註方案 分詞工具 常見模型 維護詞典 用語句中字串與詞典進行比較,找到則切分,否則不切分。相連的字反覆出現,認為它們可能組成的是乙個詞。補充 hmm 齊次馬爾科夫假設,發射概率,轉移概率 先基於詞典進行分詞,再使用統計方法輔助 處理未登入詞和歧義詞 標籤 b begin i intermedi...
NLP 使用jieba分詞
相比於機械法分詞法,jieba聯絡上下文的分詞效果更好。同時使用hmm模型對片語的分類更加準確。測試對如下文字的分詞效果 南門街前段時間經過整改勸阻擺攤佔道的情況改善了很多,但是情況好了幾天又慢慢的和以前一樣了,只要有人帶頭 後面慢慢又擺出來,很多商戶現在乾脆用鉤子把一些貨物掛門口屋簷下的電線上,上...
NLP 之 結巴分詞
結巴分詞是當前效果較好的一種中文分詞器,支援中文簡體 中文繁體分詞,同時還支援自定義詞庫。結巴分詞支援三種分詞模式 精確模式 全模式和搜尋引擎模式。結巴分詞自帶乙個詞典,內含20000多條詞,及詞條出現的次數與詞性。結巴分詞用到的演算法有基於trie樹的詞圖遍歷,會生成乙個dag圖,該圖是由句子中所...