在自然語言領域,分詞是很重要的,雖然很多深度文字網路都會自動分詞,但是理解分詞很重要。下面講解乙個jieba庫的安裝與使用
先安裝一下jieba庫
pip install -i jieba
以上是使用映象的方法安裝jieba庫
安裝完畢後測試一下
import jieba
print
(jieba.__version__)
seg = jieba.cut(
"這是一段中文字元"
, cut_all =
false
)print
(' '
.join(seg)
)
結果顯示
這一對紅色的玩意我不知道是什麼,反正沒啥影響,不管了
下面對jieba的常用的三種不同模式進行測試
import jieba
#精確模式,試圖將句子最精確地切開,適合文字分析
seg = jieba.cut(
"這是一段中文字元"
, cut_all =
false
)print
(' '
.join(seg)
)#全模式,把句子中所有的可以成詞的詞語都掃瞄出來,但是不能解決歧義
seg = jieba.cut(
"這是一段中文字元"
, cut_all =
true
)print
(' '
.join(seg)
)#搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,該方法適合用於搜尋引擎構建倒排索引的分詞,粒度比較細。
seg =jieba.cut_for_search(
"這是一段關於結巴分詞的中文句子"
)print
(' '
.join(seg)
)
顯示分詞結果
注意:jieba.cut以及jieba.cut_for_search返回的結構都是乙個可迭代的 generator,並不是乙個list列表
jieba庫的安裝與使用
cmd命令列 pip install jieba也可以安裝國內映象 1 jieba庫概述jieba庫是優秀的中文分詞第三方庫。中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 2 jieba庫分詞原理 jieb...
Python初學13 jieba庫簡介與使用
目錄 一 jieba庫基本介紹 二 jieba庫的使用說明 三種模式 lcut lcut for search add word 三 文字詞頻統計 例項 簡單說,jieba是乙個非常好用的中文工具,以分詞起家,但功能比分詞要強大很多。而且,全國計算機等級考試二級python語言必考jieba庫。ji...
jieba庫詞頻統計 jieba庫的使用與詞頻統計
1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...