python呼叫hanlp分詞包手記
hanlp作為一款重要的分詞工具,本月初的時候看到大快搜尋發布了hanlp的1.7版本,新增了文字聚類、流水線分詞等功能。關於hanlp1.7版本的新功能,後面有使用的到時候在給大家分享。本篇分享乙個在python裡呼叫hanlp分詞包的過程文章,供需要的朋友參考學習交流!以下為文章內容:
1.在python下安裝pyhanlp
sudo pip install pyhanlp (
詳見pyhanlp官方文件)
2.pyhanlp的一些使用方法
(1)hanlp.segment的使用
from pyhanlp import *
print hanlp.segment("今天開心了嗎?")
#輸出:[今天/t, 開心/a, 了/ule, 嗎/y, ?/w]
ï¼2ï¼其它api函式的使用。
(pyhanlp裡已經含有以下這些功能了,可以直接呼叫) 1
- # api列表 2
customdictionary= lazyloadingjclass(
'com.hankcs.hanlp.dictionary.customdictionary')
3 hanlp = safejclass(
'com.hankcs.hanlp.hanlp')
4 hanlp.config = jclass(
'com.hankcs.hanlp.hanlp$config')
5perceptronlexicalanalyzer= safejclass(
'com.hankcs.hanlp.model.perceptron.perceptronlexicalanalyzer')
6 doublearraytriesegment = safejclass(
'com.hankcs.hanlp.seg.other.doublearraytriesegment')
7ahocorasickdoublearraytrie = safejclass(
'com.hankcs.hanlp.collection.ahocorasick.ahocorasickdoublearraytrie')
8ioutil = safejclass(
'com.hankcs.hanlp.corpus.io.ioutil')
9traditionalchinesetokenizer=safejclass(
'com.hankcs.hanlp.tokenizer.traditionalchinesetokenizer')
呼叫方法
analyzer=perceptronlexicalanalyzer()
a =analyzer.analyze("今天開心了嗎?")
print a
3.其它更多的功能的實現。
â ã比如繁體分詞,自動生成摘要這些hanlp能實現的,但不在以上api函式裡面的,我們可以通過以下方法。
â¡ã首先要在「../pyhanlp/init.py」pycharm檔案下通過jclass語句引入更深類路徑。比如(我引入的是中文繁體分詞這個api函式)
â¢ãtraditionalchinesetokenizer=safejclass('com.hankcs.hanlp.tokenizer.traditionalchinesetokenizer')
â£ã然後就可以直接呼叫了,真的超級棒。
â¤ãprint traditionalchinesetokenizer.segment('三華裔獲得傑出青年獎『)
â¥ã#輸出:[三/m, 華裔/n, 獲得/v, 傑出青年/nz, 獎/n]
â¦ã---------------------
HanLP中文分詞 字典分詞
hanlp是漢語言處理的乙個重要利器。對漢語言進行處理,首先的步驟是將漢語進行分詞。漢語進行分詞的乙個比較 low 但有用的方法是字典拆分。字典拆分使用啟發式演算法 雙向文字匹配演算法,結合字典,對漢語語句和段落進行拆分的方法。from sklearn.externals import joblib...
Viterbi分詞詳解 hanlp
1.根據詞庫,生成所有所有字可能組成的詞 詞網 例如 當下雨天地面積水分外嚴重 0 1 當,當下 2 下,下雨,下雨天 3 雨,雨天 4 天,天地 5 地,地面 6 面,面積 7 積,積水 8 水,水分 9 分,分外 10 外 11 嚴,嚴重 12 重 13 前後空為起始和末尾標誌 2.通過遍歷上述...
hanlp中的N最短路徑分詞
n 最短路徑是中科院分詞工具nlpir進行分詞用到的乙個重要演算法,張華平 劉群老師在 基於n 最短路徑方法的中文詞語粗分模型 中做了比較詳細的介紹。該演算法演算法基本思想很簡單,就是給定一待處理字串,根據詞典,找出詞典中所有可能的詞,構造出字串的乙個有向無環圖,算出從開始到結束所有路徑中最短的前n...