安裝Spark與Python練習

一、安裝spark

1.檢查環境

2環境變數

3.試執行python

二、python程式設計練習：英文文字的詞頻統計

1.讀檔案

2.預處理

3.統計排序與寫入

讀#def

du():

t = open('

demo

', 'r'

)

(t.read())

t.close()

#預處理#

defycl():

t = open("

demo

","r

",errors='

ignore

').read()

t =t.lower()

for ch in

'!,.-~()':

t = t.replace(ch,""

)

(t) t = open("

demozh

","w")

#統計排序#

deftj():

f = open('

demo

','r')

t =f.read().split()

words_dic ={}

for k in

if k in

words_dic:

words_dic[k] += 1

else

: words_dic[k] = 1jiangxu = sorted(words_dic.items(),key=lambda x:x[1],reverse=true)

(jiangxu)

t1 = open("

demo1

","w")

t1.write(str(jiangxu))

du()

ycl()

tj()

整體**

2 安裝Spark與Python練習

檢查基礎環境hadoop，jdk 配置檔案環境變數啟動spark 試執行python 準備文字檔案 txt 讀檔案txt open bumi.txt r encoding utf 8 read 預處理大小寫，標點符號，停用詞將大寫字母變成小寫字母 txt txt.lower 去除標點符號及停...

2 安裝Spark與Python練習

一安裝spark 檢查基礎環境hadoop,jdk 配置檔案環境變數試執行python 二 python程式設計練習英文文字的詞頻統計準備文字檔案讀檔案預處理大小寫，標點符號，停用詞分詞統計每個單詞出現的次數按詞頻大小排序結果寫檔案 with open test.txt r as...

2 安裝Spark與Python練習

讀檔案 text open work1.txt r encoding utf 8 read 載入停用詞表 stopwords line.strip for line in open stopword.txt encoding utf 8 readlines list型別分詞未去停用詞 text s...

安裝Spark與Python練習

2 安裝Spark與Python練習

2 安裝Spark與Python練習

2 安裝Spark與Python練習

相關推薦