1.編寫map函式,reduce函式
編寫兩個函式
import sysreducer.py:for line in sys.stdin:
line = line.strip()
words = line.split()
for word in words:
print ('%s\t%s' % (word,1))
#!/usr/bin/env pythonfrom operator import itemgetter
import sys
current_word = none
current_count = 0
word = none
for line in sys.stdin:
line = line.strip()
word, count = line.split('\t', 1)
try:
count = int(count)
except valueerror:
continue
if current_word == word:
current_count += count
else:
if current_word:
'%s\t%s' % (current_word, current_count)
current_count = count
current_word = word
if current_word == word:
'%s\t%s' % (current_word, current_count)
測試截圖
在ubuntu中實現執行。
2.用mapreduce實現詞頻統計
2.1編寫map函式
授予可執行許可權
2.2編寫reduce函式
2.3分布式執行自帶詞頻統計示例
2.4 分布式執行自寫的詞頻統計
檢視執行結果
停止hdfs與yarn
第八次作業
練習題 1 怎麼查出通過 from xx import xx導 的可以直接調 的 法?在test package資料夾中建立 init py檔案,裡邊什麼都不需要編輯。在 中把test package的檔案的路徑加入到python直譯器可以搜尋到的路徑列表中,這裡就用到了python的包sys模組 ...
第八次作業
用python實現k均值演算法,鳶尾花花瓣長度資料做聚類並用散點圖顯示。import numpy as np 隨機生成乙個陣列 x np.random.randint 1,100,20,1 y np.zeros x.shape 0 dtype int k 3iris length 1.4,1.4,1...
第八次作業
問題 答案這個作業屬於那個課程 c語言程式設計ii 這個作業要求在 我在這個課程的目標是 更加熟練掌握markdown語法的相關用法 這個作業在那個具體方面幫助我實現目標 更加熟練的使用markdown,對本週知識總結 參考文獻 pta常見問題解析,c語言程式設計 1.pta實驗作業 1.1 求整數...