一、安裝spark
1.檢查環境
2環境變數
3.試執行python
二、python程式設計練習:英文文字的詞頻統計
1.讀檔案
2.預處理
3.統計排序與寫入
讀#def
du():
t = open('
demo
', 'r'
)
(t.read())
t.close()
#預處理#
defycl():
t = open("
demo
","r
",errors='
ignore
').read()
t =t.lower()
for ch in
'!,.-~()':
t = t.replace(ch,""
)
(t) t = open("
demozh
","w")
#統計排序#
deftj():
f = open('
demo
','r')
t =f.read().split()
words_dic ={}
for k in
t:
if k in
words_dic:
words_dic[k] += 1
else
: words_dic[k] = 1jiangxu = sorted(words_dic.items(),key=lambda x:x[1],reverse=true)
(jiangxu)
t1 = open("
demo1
","w")
t1.write(str(jiangxu))
du()
ycl()
tj()
整體**
2 安裝Spark與Python練習
檢查基礎環境hadoop,jdk 配置檔案 環境變數 啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理 大小寫,標點符號,停用詞 將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...
2 安裝Spark與Python練習
一 安裝spark 檢查基礎環境hadoop,jdk 配置檔案 環境變數 試執行python 二 python程式設計練習 英文文字的詞頻統計 準備文字檔案 讀檔案預處理 大小寫,標點符號,停用詞 分詞統計每個單詞出現的次數 按詞頻大小排序 結果寫檔案 with open test.txt r as...
2 安裝Spark與Python練習
讀檔案 text open work1.txt r encoding utf 8 read 載入停用詞表 stopwords line.strip for line in open stopword.txt encoding utf 8 readlines list型別 分詞未去停用詞 text s...