NLP筆記 分詞

2021-10-01 02:43:16 字數 837 閱讀 6566

分詞標註方案

分詞工具

常見模型

維護詞典 =》用語句中字串與詞典進行比較,找到則切分,否則不切分。

相連的字反覆出現,認為它們可能組成的是乙個詞。

補充:hmm(齊次馬爾科夫假設,發射概率,轉移概率)。

先基於詞典進行分詞,再使用統計方法輔助(處理未登入詞和歧義詞)。

標籤:b(begin),i(intermediate),e(end),s(single),o(other)。

方案:

其中最常用的是iob2、iobs、iobes。具體怎麼標記,完全可以根據自己的經驗,不必拘泥於這類方案。

ref: 自然語言處理相關專案列表(2018/02/05更新)

foolnltk

cws_dict

multi-criteria-cws

jieba

nlpir-team/nlpir

bilstm+crf

– ** bidirectional lstm-crf models for sequence tagging by huang, xu and yu

– 參考**實現 tf_ner

bilstm+bilstm+crf

– ** neural architectures for named entity recognition by lample et al.

– 參考**實現 tf_ner

bilstm+cnn+crf

– ** end-to-end sequence labeling via bi-directional lstm-cnns-crf by ma et hovy

– 參考**實現 tf_ner

NLP 自動分詞

統計自然語言處理 學習筆記 由字構詞的漢語分詞方法 2002 由字構詞的漢語分詞方法的思想 它是將分詞的過程看作字的分類問題。在以往的分詞方法中,無論是基於規則的方法還是基於統計的方法,一般都依賴於乙個事先編制的詞表,自動分詞的過程就是通過查詞表作出詞語切分的決策,與此相反,由字構詞的分詞方法認為每...

NLP模型筆記 分布式表示

名稱 分布式表示 別名distributed representation 介紹若干元素的連續表現形式,將詞的語義分布式地儲存在各個維度中,與之相反的是獨熱向量。非分布式表示 圖形水平矩形 垂直矩形 水平橢圓 垂直橢圓 水平矩形10 00垂直矩形01 00水平橢圓00 10垂直橢圓00 01分布式表...

NLP 使用jieba分詞

相比於機械法分詞法,jieba聯絡上下文的分詞效果更好。同時使用hmm模型對片語的分類更加準確。測試對如下文字的分詞效果 南門街前段時間經過整改勸阻擺攤佔道的情況改善了很多,但是情況好了幾天又慢慢的和以前一樣了,只要有人帶頭 後面慢慢又擺出來,很多商戶現在乾脆用鉤子把一些貨物掛門口屋簷下的電線上,上...