jieba庫的使用說明

2022-05-30 01:12:10 字數 1612 閱讀 3678

(1)、jieba庫概述

jieba是優秀的中文分詞第三方庫

-中文文字需要通過分詞獲得單個的詞語

-jieba是優秀的中文分詞第三方庫,需要額外安裝

-jieba庫提供三種分詞模式,最簡單只需掌握乙個函式

(2)、jieba分詞的原理

jieba分詞依靠中文詞庫

-利用乙個中文詞庫,確定漢字之間的關聯概率

-漢字間概率大的組成片語,形成分詞結果

-除了分詞,使用者還可以新增自定義的片語

(1)、jieba分詞的三種模式

精確模式、全模式、搜尋引擎模式

-精確模式:把文字精確的切分開,不存在冗餘單詞

-全模式:把文字中所有可能的詞語都掃瞄出來,有冗餘

-搜尋引擎模式:在精確模式基礎上,對長詞再次切分

(2)、jieba庫常用函式

d:\\三國演義.txt

", "

r", encoding='

utf-8

').read()

words = jieba.lcut(txt) #

使用精確模式對文字進行分詞

counts = {} #

通過鍵值對的形式儲存詞語及其出現的次數

for word in

words:

if len(word) == 1: #

單個詞語不計算在內

continue

else

:counts[word] = counts.get(word, 0) + 1 #

遍歷所有詞語,每出現一次其對應的值加 1

items = list(counts.items())#

將鍵值對轉換成列表

items.sort(key=lambda x: x[1], reverse=true) #

根據詞語出現的次數進行從大到小排序

統計了次數對多前十五個名詞,曹操不愧是一代梟雄,第一名當之無愧,但是我們會發現得到的資料還是需要進一步處理,比如一些無用的詞語,一些重複意思的詞語。

動態庫使用說明

luo weifeng 1 15 2009 9 2 1.在code bloks下新建dynamic link library 工程 在main.h 中宣告自己自定義函式,形式如 int dll export add int int 2.在main.cpp中自定義所需函式 提供函式定義 3.編譯 成功...

使用說明 附註工具使用說明

附註工具使用說明 附註工具用途 附註工具主要用於更新利用word附註應用程式生成的帶域 的附註,該工具在word右鍵 更新鏈結 的基礎上進行了優化,故在使用時,不能再利用word右鍵 更新鏈結 而要用本工具的 更新當前鏈結 或 更新所有鏈結 使用說明 一 更換路徑 當利用word附註應用程式生成帶域...

this的使用說明

student類中 private string name public void setname string name main函式中 student stu1 newstudent stu1.setname 小冪冪 此時main函式中stu1儲存了student類的記憶體位址,當stu1呼叫s...