金融領域的專有名詞較多,使用通用的分詞工具的話效果很不好,我使用了4個分詞工具:lac,pkuseg,thulac,jieba,針對分詞效果來說,thulac能考慮到金融名詞,但是在數字的切詞上很奇怪,其餘三個則是完全不考慮金融名詞,具體過程如下:
原句:三季報顯示,公司資本公積比年初增加了2306.33萬元,增幅達286.66%,主要系持有的可供**的金融資產公允價值增加所致。
沒辦法,只能自己訓練分詞模型或者使用金融詞典。
解決辦法如下:
1、 jieba+金融詞典:如果公司金融詞典那是最好了,但如果沒有的話就需要自己去做詞典。
做詞典的方法:
(1)新詞發現(或者無監督構建詞庫):
(2)手動構建詞典:首先構建搜狗輸入法的金融詞庫;詞典構建成功後,可以使用關聯詞擴充套件等方法進行詞彙擴充。
注:搜狗scel轉換為txt方法:
2、 pkuseg,jieba,thulac等訓練自己的分詞模型,但由於缺少原始資料,因此該方法不易做。
NLP自然語言 jieba分詞庫
jieba 結巴 是乙個強大的分詞庫,完美支援中文分詞,本文對其基本用法做乙個簡要總結。1.安裝jieba pip install jieba 2.簡單用法 結巴分詞分為三種模式 精確模式 預設 全模式和搜尋引擎模式,下面對這三種模式分別舉例介紹 1 精確模式 import jieba s u 我想...
NLP 自動分詞
統計自然語言處理 學習筆記 由字構詞的漢語分詞方法 2002 由字構詞的漢語分詞方法的思想 它是將分詞的過程看作字的分類問題。在以往的分詞方法中,無論是基於規則的方法還是基於統計的方法,一般都依賴於乙個事先編制的詞表,自動分詞的過程就是通過查詞表作出詞語切分的決策,與此相反,由字構詞的分詞方法認為每...
python jieba分詞庫的使用
測試環境 py3 win10 import jieba str test 有很多人擔心,美國一聲令下,會禁止所有的開源軟體被中國使用,這樣的擔憂是不必要的。返回迭代器 c1 jieba.cut str test c2 jieba.cut str test,cut all true c3 jieba....