檢查基礎環境hadoop,jdk
配置檔案
環境變數
啟動spark
試執行python**
準備文字檔案(txt)
讀檔案
txt = open("預處理:大小寫,標點符號,停用詞bumi.txt
", "
r",encoding='
utf-8
').read()
將大寫字母變成小寫字母
txt = txt.lower()去除標點符號及停用詞
for ch in統計每個單詞出現的次數'!"@#$%^&*()+,-./:;<=>?@[\\]_`~':
txt=txt.replace(ch,"")
words =txt.split()
stop_words = ['
so','
out','
all','
for','
of','
to','
on','
in','
if','
by','
under
','it
','at
','into
','with
','about']
lenwords=len(words)
afterwords=
for i in
range(lenwords):
z=1for j in
range(len(stop_words)):
if words[i]==stop_words[j]:
continue
else
:
if z==len(stop_words):
break
z=z+1
continue
counts ={}按詞頻大小排序for word in
afterwords:
counts[word] = counts.get(word,0) + 1
items =list(counts.items())
items.sort(key=lambda x:x[1],reverse=true)
i=1結果寫檔案while i<=len(items):
word,count = items[i-1
] print(""
.format(word,count))
i=i+1
txt= open("結果如圖所示bumi001.txt
", "
w",encoding='
utf-8')
txt.write(str(items))
print(
"檔案寫入成功
")
2 安裝Spark與Python練習
一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...
2 安裝Spark與Python練習
讀檔案 text open work1.txt r encoding utf 8 read 載入停用詞表 stopwords line.strip for line in open stopword.txt encoding utf 8 readlines list型別 分詞未去停用詞 text s...
2 安裝Spark與Python練習
一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 配置環境 修改環境變數 vim bashrc 生效 source bashrc 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 統計每個單詞出現的次數 結果寫檔案 三 根據自己的程式設計習慣...