使用python實現map reduce程式
起因想處理一些較大的檔案,單機執行效率太低,多執行緒也達不到要求,最終採用了集群的處理方式。
詳細的討論可以在v2ex上看一下。
步驟
hadoop jar contrib/streaming/hadoop-streaming-1.1.2.jar
-reducer /usr/local/hadoop/reducer.py
-input book/*
-output book-output
程式例項import sys
for line in sys.stdin:
print line
import sys
for line in sys.stdin:
print line
參考 python利用多核CPU實現mapreduce
1.最近公司用有個比較奇怪的需求,需要在流水中查詢某一條符合條件的流水記錄,記錄是在hdfs上的,按天存在檔案中,但是檔案都比較大,每天大概是25g的流水資料,現在提供刷卡回執單去查詢該消費記錄在我們hdfs上的對應的記錄,從而可以找到某個資訊 不能說是哪個。2.刷卡回執單我們可以找到卡號前6位 後...
python使用peewee實現mysql資料操作
peewee可用class來建立表,增刪改查,應該是相對餘單錶 本人幾乎沒用過,自以為如此 想實現sql查詢,得到list,比如這樣的結果 但是查詢結果是全是資料 元組 且找不到列名,後dir後逐個嘗試發現列名可以使用result.description j 0 獲取 元組使用起來不方便,現實現將資...
使用python實現簡單爬蟲
近日學習了python語言,簡單實現了乙個爬蟲,爬取了慕課網課程簡介上的,並儲存到本地。以下是實驗 coding utf 8 spyder editor import re import os import urllib.request 在python3.6環境中實現 f soure urllib....