jieba庫的安裝與使用

2021-10-02 10:50:04 字數 1229 閱讀 1956

(cmd命令列)

pip install jieba
也可以安裝國內映象:

(1)jieba庫概述jieba庫是優秀的中文分詞第三方庫。

中文文字需要通過分詞獲得單個的詞語;

jieba是優秀的中文分詞第三方庫,需要額外安裝;

jieba庫提供三種分詞模式,最簡單只需掌握乙個函式;

(2)jieba庫分詞原理

jieba分詞依靠中文詞庫

利用乙個中文詞庫,確定漢字之間的關聯概率

漢字間概率大的組成片語,形成分詞結果

除了分詞,使用者還可以新增自定義的片語

jieba分詞的三種模式

精確模式:把文字精確的切分開,不存在冗餘單詞

全模式:把文字中所有可能的詞語都掃瞄出來,有冗餘

搜尋引擎模式:在精確模式基礎上,對長詞再次切分

jieba庫函式的使用

函式描述

jieba.lcut(s)

精確模式,返回乙個列表型別的分詞結果

>>>jieba.lcut(「中國是乙個偉大的國家」)

[『中國』,『是』,『乙個』,』偉大『,』的『,』國家『]

jieba.lcut(s,cut_all=true)

全模式,返回乙個列表型別的分詞結果,存在冗餘。

>>>jieba.lcut(「中國是乙個偉大的國家」)

[『中國』,『國是』,『乙個』,』偉大『,』的『,』國家『]

jieba.lcut_for_search(s)

搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘。

>>>jieba.lcut_for_search(「中華人民共和國是偉大的」)

[『中華』,『華人』,』人民『,』共和『,』共和國『,』中華人民共和國『,』是『,』偉大『,』的『]

jieba.add_word(w)

向分詞詞典增加新詞w

>>>jieba.add_word(「蟒蛇語言」)

jieba庫詞頻統計 jieba庫的使用與詞頻統計

1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...

NLP之路 Jieba庫安裝與使用

在自然語言領域,分詞是很重要的,雖然很多深度文字網路都會自動分詞,但是理解分詞很重要。下面講解乙個jieba庫的安裝與使用 先安裝一下jieba庫 pip install i jieba 以上是使用映象的方法安裝jieba庫 安裝完畢後測試一下 import jieba print jieba.ve...

jieba安裝與簡單使用

windows 下使用命令安裝 在聯網狀態下,在命令列下輸入 pip install jieba 進行安裝,安裝完成後會提示安裝成功 在 pycharm 中安裝 開啟 settings,搜尋 project interpreter,在右邊的視窗選擇 號,點選後在搜尋框搜尋 jieba,點選安裝即可 ...