利用Python及第三方庫進行詞頻統計工作

2021-10-07 06:09:22 字數 1134 閱讀 4586

jieba(結巴)是python的乙個第三方庫,用於中文分詞,它有以下三種特性:

關於jieba本次不做過多討論,改日會專門介紹(咕咕咕)

#!/usr/bin/env python

# coding=utf-8

# @author:神樂阪幾禾

# @time:2020-6-8 20:00

# @discribe:counts of word frequency

# 匯入jieba第三方庫

import jieba

# 匯入外部檔案

f=open

("關於實施鄉村振興戰略的意見.txt"

,"r"

,encoding=

'utf-8'

)# 讀取檔案並通過jieba分詞

txt=f.read(

)words=jieba.lcut(txt)

# 新建對映字典counts

counts=

for word in words:

# 這裡是限制詞語長度

iflen

(word)==4

: counts[word]

=counts.get(word,0)

+1# 轉換成列表

items=

list

(counts.items())

#詞頻按降序排序

items.sort(key=

lambda x:x[1]

,reverse=

true

)#列印輸出排名前15的詞語

for i in

range(15

):word,count=items[i]

print(""

.format

(word,count)

)

我這裡也是找了一篇文章《關於實施鄉村振興戰略的意見》,我們就可以用該程式對這篇文件進行分析了,執行之後在控制台終端列印的結果如下:

由於程式中限定了詞語的長度,還可以根據個人喜好或者工作需求更改。

Python及第三方庫api檢視

為了方便python及整合的第三方庫便與檢視,python中有個方便的方法,可以讓我們快速簡單的實現這個功能。配置pydoc服務,cmd中輸入如下 python m pydoc p 1234回車後 瀏覽器中執行 http localhost 1234 就可以開啟python及整合的其他庫的api了。...

linux下python安裝及第三方

linux下python安裝及第三方庫的安裝 旅行的鴨嘴獸 2 安裝 tar jxvf python 2.5.2.tar.bz2 cd python 2.5.2 configure make make install 3.測試 在命令列下輸入python,出現python直譯器即表示已經正確安裝。在...

PyThon第三方庫

本文 自 戀花蝶的部落格 今天公司停電,沒上班。跑上來更新個部落格,跟大家分享一下我常用的幾個第三方 python 庫。python 語言之所以能夠如此流行,除了本身內建許多程式庫來保障快速開發之外,目不睱接的第三方庫也是一大主因。結合我目前的工作 網遊開發 我常用的幾個第三方庫如下 wxpytho...