目錄包括文字框、匯入按鈕、開始按鈕的
import tkinter as tk # 使用tkinter前需要先導入
window = tk.tk()
window.title('my window')
window.geometry('600x300') # 這裡的乘是小x
t = tk.text(window,width=80,height=15)
t.place(x=10, y=10)
def import_file(): # 在滑鼠焦點處插入輸入內容
pass
def run(): # 在文字框內容最後接著插入輸入內容
print(t.get('0.0','end'))
t.delete('0.0','end')
# tk.messagebox.showinfo(title='', message='')
b1 = tk.button(window, text='匯入', width=10,height=2, command=import_file).place(x=300, y=220)
b2 = tk.button(window, text='執行', width=10,height=2, command=run).place(x=400, y=220)
使用jieba對輸入的文字或讀取的world內容進行基礎分詞,轉成dataframe輸出csv檔案
參考文件:
結巴分詞和詞頻統計
結巴自定義詞典
結巴和pkuseg
jieba 是乙個python實現的中文分詞元件,在中文分詞界非常出名,支援簡、正體中文,高階使用者還可以加入自定義詞典以提高分詞的準確率。
它支援三種分詞模式:
**片段:
jieba的使用很簡單,通常使用的是精確模式。先清洗資料,將標點符號去掉。然後使用jieba.cut(te_text)進行分析,分詞結果匹配停用詞如果在停用詞就不做統計。
#分詞函式
def jiebaword(text):
# 載入自定義詞典
jieba.load_userdict(os.getcwd() + os.sep + 'userdict.txt')
# 載入停用詞
# path = os.getcwd() + os.sep
stoppath = path + 'stopword.txt'
logger.info("載入停用詞 %s " % stopwordslist(stoppath))
# 過濾文字標點符號
te_text = re_content(text)
# 分詞
logger.info("開始分詞")
data = [i for i in jieba.cut(te_text) if i not in stopwordslist(stoppath) and i != ' ']
# 使用collections統計詞頻
logger.info("轉換成datafram")
count_data = collections.counter(list(data))
# 將結果轉成dataframe
df = pd.dataframe(count_data.items(), columns=['key', 'cnt'])
return df
jieba詞頻統計
from wordcloud import wordcloud import matplotlib.pyplot asplt import numpy asnp from pil import image from jieba import def replace text,old,new 替換列表...
jieba庫詞頻統計 運用jieba庫進行詞頻統計
python第三方庫jieba 中文分詞 一 概述 jieba是優秀的中文分詞第三方庫 中文文字需要通過分詞獲得單個的詞語 jieba是優秀的中文分詞第三方庫,需要額外安裝 jieba庫提供三種分詞模式,最簡單只需掌握乙個函式 二 安裝說明 全自動安裝 cmd命令列 pip install jieb...
統計csv詞頻 基於給定詞語列表統計詞頻
基於給定詞語列表並統計詞頻,統計結果輸出到csv中。有兩種實現方法 思路 第一步,整理好待查詢query words 第二步,新建乙個csv檔案,並且將query words以列名寫入csv中 第三步,對文字分詞,得到詞語列表wordlist 第四步,對每乙個query words中的詞語計算其在w...