(cmd命令列)
pip install jieba
也可以安裝國內映象:
(1)jieba庫概述jieba庫是優秀的中文分詞第三方庫。
中文文字需要通過分詞獲得單個的詞語;
jieba是優秀的中文分詞第三方庫,需要額外安裝;
jieba庫提供三種分詞模式,最簡單只需掌握乙個函式;
(2)jieba庫分詞原理
jieba分詞依靠中文詞庫
利用乙個中文詞庫,確定漢字之間的關聯概率
漢字間概率大的組成片語,形成分詞結果
除了分詞,使用者還可以新增自定義的片語
jieba分詞的三種模式
精確模式:把文字精確的切分開,不存在冗餘單詞
全模式:把文字中所有可能的詞語都掃瞄出來,有冗餘
搜尋引擎模式:在精確模式基礎上,對長詞再次切分
jieba庫函式的使用
函式描述
jieba.lcut(s)
精確模式,返回乙個列表型別的分詞結果
>>>jieba.lcut(「中國是乙個偉大的國家」)
[『中國』,『是』,『乙個』,』偉大『,』的『,』國家『]
jieba.lcut(s,cut_all=true)
全模式,返回乙個列表型別的分詞結果,存在冗餘。
>>>jieba.lcut(「中國是乙個偉大的國家」)
[『中國』,『國是』,『乙個』,』偉大『,』的『,』國家『]
jieba.lcut_for_search(s)
搜尋引擎模式,返回乙個列表型別的分詞結果,存在冗餘。
>>>jieba.lcut_for_search(「中華人民共和國是偉大的」)
[『中華』,『華人』,』人民『,』共和『,』共和國『,』中華人民共和國『,』是『,』偉大『,』的『]
jieba.add_word(w)
向分詞詞典增加新詞w
>>>jieba.add_word(「蟒蛇語言」)
jieba庫詞頻統計 jieba庫的使用與詞頻統計
1 詞頻統計 1 詞頻分析是對文章中重要詞彙出現的次數進行統計與分析,是文字 挖掘的重要手段。它是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢。2 安裝jieba庫 安裝說明 對 python 2 3 均相容 全自動安裝 easy in...
NLP之路 Jieba庫安裝與使用
在自然語言領域,分詞是很重要的,雖然很多深度文字網路都會自動分詞,但是理解分詞很重要。下面講解乙個jieba庫的安裝與使用 先安裝一下jieba庫 pip install i jieba 以上是使用映象的方法安裝jieba庫 安裝完畢後測試一下 import jieba print jieba.ve...
jieba安裝與簡單使用
windows 下使用命令安裝 在聯網狀態下,在命令列下輸入 pip install jieba 進行安裝,安裝完成後會提示安裝成功 在 pycharm 中安裝 開啟 settings,搜尋 project interpreter,在右邊的視窗選擇 號,點選後在搜尋框搜尋 jieba,點選安裝即可 ...