在nlp中,需要將文字進行單詞或片語的分割,以便於構建特徵。例如,「i am a student」,可以分詞為「i」,「am」,「a student」。由於英文的特點,每個單詞都有空格,所以比較好分。但是像中文,只有句子與句子之間才有明顯的分割,單詞和片語之間無法直接分割,所以就需要一定的規則庫對中文分詞處理。
詞幹化就是將不同狀態的單詞進行簡化處理,例如listened轉化為listen,目的是減少詞彙量,進而減少特徵。這個是針對英文而言的,中文沒有這方面的需要。
通過單詞出現的頻率來構建特徵,例如
「i am li,i like zhang」,
「i am a student」,
彙總到一起的詞彙表為「i,am,li,like,zhang,a,student」
詞彙表一共是7個單詞,所以根據單詞出現的次數分別構建句子的向量為
「i am li,i like zhang」 ---> [2, 1, 1, 1, 1, 0, 0]
「i am a student」 ---> [1, 1, 0, 0, 0, 1, 1]
NLP 自動分詞
統計自然語言處理 學習筆記 由字構詞的漢語分詞方法 2002 由字構詞的漢語分詞方法的思想 它是將分詞的過程看作字的分類問題。在以往的分詞方法中,無論是基於規則的方法還是基於統計的方法,一般都依賴於乙個事先編制的詞表,自動分詞的過程就是通過查詞表作出詞語切分的決策,與此相反,由字構詞的分詞方法認為每...
NLP筆記 分詞
分詞標註方案 分詞工具 常見模型 維護詞典 用語句中字串與詞典進行比較,找到則切分,否則不切分。相連的字反覆出現,認為它們可能組成的是乙個詞。補充 hmm 齊次馬爾科夫假設,發射概率,轉移概率 先基於詞典進行分詞,再使用統計方法輔助 處理未登入詞和歧義詞 標籤 b begin i intermedi...
NLP 使用jieba分詞
相比於機械法分詞法,jieba聯絡上下文的分詞效果更好。同時使用hmm模型對片語的分類更加準確。測試對如下文字的分詞效果 南門街前段時間經過整改勸阻擺攤佔道的情況改善了很多,但是情況好了幾天又慢慢的和以前一樣了,只要有人帶頭 後面慢慢又擺出來,很多商戶現在乾脆用鉤子把一些貨物掛門口屋簷下的電線上,上...