一、安裝環境
window + python
二、安裝方式
在電腦命令符(cmd)中直接寫進下面的語句:pip install jieba 即可
三、jieba庫分詞的基本原理
1、利用中文詞庫,分析漢字與漢字之間的關聯機率
2、還有分析漢字片語的關聯機率
3、還可以根據使用者自定義的片語進行分析
四、jieba庫三種模式和對應的三個函式
精確模式: 把文字精確的切分開,不存在冗餘單詞 (就是切分開之後乙個不剩的精確組合)
全模式: 把文字中所有可能的詞語都掃瞄出來,有冗餘
即: 可能有乙個文字,可以從不同的角度來切分,變成不同的詞語。在全模式下把不同的詞語都挖掘出來
搜尋引擎模式:在精確模式基礎上,對長詞語再次切分
函式對應模式
lcut(s)
精確模式,沒有多餘
lcut(s,cut_all=ture)
全模式,有多餘,長片語
lcut_for_search(s)
搜尋引擎模式,有多餘,長片語
例如:
以上就是jieba庫的一些基本的知識。
五、jieba庫詞頻統計例項
1、先把文章存為記事本的txt檔案
2、利用結巴庫
**如下:
1得出結果:import
jieba
2 txt = open("
jiebatxt.txt
","r
", encoding = '
gbk').read() #
讀取已存好的txt文件
3 words = jieba.lcut(txt) #
進行分詞
4 counts ={}
5for word in
words:
6if len(word)== 1: #
去掉標點字元和其它單字元
7continue
8else
:9 counts[word] = counts.get(word, 0) + 1 #
計數10 items = list(counts.items()) #
把物件物件轉化為列表形式,利於下面操作
1112
#sort() 函式用於對原列表進行排序,如果指定引數,則使用比較函式指定的比較函式13#
reverse 排序規則,reverse = true 降序, reverse = false 公升序(預設)14#
key 是用來比較的引數
1516 items.sort(key=lambda x: x[1], reverse =true)
17for i in range(10):
18 word, count=items[i]
19print("
".format(word, count))
可以先看效果:
python中jieba庫的使用
英語中我們可以通過.split 對字串進行分割,從而獲取到單詞的列表。比如如下 對哈姆雷特中前10英文單詞頻率進行了統計排序 calhamletv1.py def gettext txt open word frequency hamlet.txt r read txt txt.lower for ...
mysql呼叫jieba庫 jieba庫的使用
jieba是優秀的中文分詞第三方庫 jieba有3種模式 1.精確模式,返回乙個列表型別的分詞結果 jieba.lcut 中國是乙個偉大的國家 中國 是 乙個 偉大 的 國家 2.全模式,返回乙個列表型別的分詞結果,存在冗餘 jieba.lcut 中國是乙個偉大的國家 cut all true 中國...
python庫 jieba 中文分詞
import jieba 精確模式,試圖將句子最精確地切開,適合文字分析 全模式,把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義 搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。cut sentence 需要分詞的字串 cut all f 是...