使用hanlp分詞時,標註詞性經常出錯,尤其見於人名譯名的錯誤。
比如將「海爾」識別為人名,標註了nrf詞性。
但是我們想把「海爾」識別為品牌名字,就需要修改nrf.txt檔案。
修改詞典後要刪除對應的二進位制檔案,如nrf.txt.trie.dat檔案。
重新build專案,run。
以及各種其他的詞性標註錯誤,一般都是衝突,檢視被標記成的詞性,在使用者字典中搜尋刪除,或者替換,或者另外載入自定義字典。
注意路徑。
參考:
結巴分詞 詞性標註
1 簡介 詞性 part of speech 是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述乙個詞在上下文的作用。例如,描述乙個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做...
python jieba分詞 詞性標註
進行詞性標註 檔案讀取寫入 做實驗室的乙個專案,暫時要做的內容 對文字資料作摘要 8 首先觀察文字資料,我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...
Jieba分詞詞性標註以及詞性說明
import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....