中文分詞與詞性標註

2021-04-29 21:45:42 字數 1310 閱讀 5495

概況介紹

中文分詞與詞性標註是自然語言處理的第乙個階段,是上層處理的基礎。分詞的主要研究內容是歧義切分和未登入詞識別。歧義切分是指對同乙個文字片斷具有不同的切分方式,如「結合成分子」這句話就有好幾種切分方法,但是正確的只有一種,能正確的進行歧義切分是分詞的乙個難點。分詞的另乙個難點是未登入詞識別,未登入詞指的是在詞表中沒有收錄的詞,主要包括時間詞、數詞、人名、地名、機構名等。詞性標註的主要研究內容是兼類詞的識別,兼類詞是指具有多種詞性的詞。分詞與詞性標註可應用於各個自然語言處理和資訊檢索系統中。

體系結構

系統包括原子切分、全切分、時間數詞識別、人名識別、地名識別等處理過程,系統的核心資料結構是乙個切分詞圖(segment graph)。

系統特點

資訊檢索研究室詞法分析系統(irlas)具有如下特點:

1.支援多執行緒,保證資源只會載入一次

2.在windows和linux下都可以執行

3.良好的可配置性,使您可以最大限度的進行diy,以滿足不同的需求

4.支援大文字輸入,無論您一次輸入多長的文字它都能處理,不過我不推薦您這樣做,因為文字長的話未登入詞識別效果稍有下降

5.支援擴充套件詞表,您可以手工加入任意新詞或專有詞彙

6.靈活的資源載入和釋放,一切盡在您掌握之中,不必強行占領您寶貴的memory

7.較快的速度,完全配置的版本速度可達到100k/s(3g cpu,1g memory)

系統功能

1.支援多執行緒,保證資源只會載入一次

2.在windows和linux下都可以執行

3.良好的可配置性,可以根據自己的需要選擇系統的各個部分

4.支援大文字輸入,一次可以處理任意長度的文字

5.支援擴充套件詞表,您可以手工加入任意新詞或專有詞彙並可以為詞指定詞性

技術特點

目前系統語言模型主要採用bigram語言模型,未登入詞的識別中時間和數詞識別採用規則的方法,人名和地名的識別部分採用的是基於角色標註的方法。詞性標註採用基於hmm的詞性標註方法。系統的核心資料結構是乙個切分詞圖,最後在這個詞圖的基礎上選擇最優路徑,把詞典詞的識別和未登入詞的識別統一在乙個框架下,大大提高了未登入詞識別的效能。

效能指標

效能指標

下面的**是本系統參加第二屆sighan分詞評測時開放測試的結果。

測試語料大小:343k位元組rp

f0.961

0.969

0.965

應用領域

1、自然語言處理:如命名實體識別,句法分析,詞義消歧,語義分析等

2、機器翻譯

3、自動問答

4、資訊檢索

5、資訊抽取:自動文摘、文字分類等

結巴分詞 詞性標註

1 簡介 詞性 part of speech 是詞彙基本的語法範疇,通常也稱為詞類,主要用來描述乙個詞在上下文的作用。例如,描述乙個概念的詞就是名詞,在下文引用這個名詞的詞就是代詞。有的詞性經常會出現一些新的詞,例如名詞,這樣的詞性叫做開放式詞性。另外一些詞性中的詞比較固定,例如代詞,這樣的詞性叫做...

python jieba分詞 詞性標註

進行詞性標註 檔案讀取寫入 做實驗室的乙個專案,暫時要做的內容 對文字資料作摘要 8 首先觀察文字資料,我們需要擷取符號 open cut.txt r encoding utf 8 f1 open cut result.txt w encoding utf 8 for line in f.readl...

Jieba分詞詞性標註以及詞性說明

import jieba import jieba.analyse import jieba.posseg def dosegment all sentence 帶詞性標註,對句子進行分詞,不排除停詞等 param sentence 輸入字元 return sentence seged jieba....