#讀檔案
text = open("
work1.txt
", '
r', encoding='
utf-8
').read()
#載入停用詞表
stopwords = [line.strip() for line in open('
stopword.txt
', encoding='
utf-8
').readlines()] #
list型別
#分詞未去停用詞
text_split = jieba.cut(text) #
未去掉停用詞的分詞結果 list型別
#去掉停用詞的分詞 list型別
text_split_no =
for word in
text_split:
if word not
instopwords:
text_split_no_str = '
'.join(text_split_no) #
list型別分為str
hamlettxt =text_split_no_str
words = hamlettxt.split() #
獲得分割完成的單詞列表
counts = {} #
建立空字典,存放詞頻統計資訊
for word in
words:
counts[word] = counts.get(word, 0) + 1 #
若字典中無當前詞語則建立乙個鍵值對,若有則將原有值加1
items = list(counts.items()) #
將無序的字典型別轉換為有序的列表型別
items.sort(key=lambda x: x[1], reverse=true) #
按統計值從高到低排序(以第二列的次數排序)
for i in range(50):
word, count =items[i]
print("
".format(word, count)) #
格式化輸出詞頻統計結果
write1 = str(items) #
強制轉換內容的型別
w = open("
writeword.txt
","r+")
w.write(write1)
#寫入詞頻統計結果
w.close()
執行結果:
寫入檔案:
停用詞:
2 安裝Spark與Python練習
檢查基礎環境hadoop,jdk 配置檔案 環境變數 啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理 大小寫,標點符號,停用詞 將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...
2 安裝Spark與Python練習
一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...
2 安裝Spark與Python練習
一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 配置環境 修改環境變數 vim bashrc 生效 source bashrc 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 統計每個單詞出現的次數 結果寫檔案 三 根據自己的程式設計習慣...