這裡總結一下使用方法:
首先需要借助三方庫pyhdfs
建立乙個hadoop連線物件
hdfs_client = pyhdfs.hdfsclient(hdfs_ip,hdfs_port,hdfs_user)
假設hadoop現有目錄:/home/data/下有乙個檔案2018-06-28.out
那麼我們如何檢視該目錄下的檔案呢?
方法(類似於os)如下:
hdfs_client.listdir(『/home/data』)
如果要將該檔案拉到本地怎麼辦?
hdfs.client.copy_to_local('/home/data/2018-06-28.out','/local_path/2018-06-28.out')
如果要將本地的乙個檔案上傳到hadoop怎麼辦?
hdfs.client.copy_from_local('/local_path/2018-06-28.out','/home/data/2018-06-28.out')
如果要讀取hadoop上檔案內容怎麼辦?
with hdfs.client.open(file)as f:
data_list = f.readlines( )
for data in data_list:
print(data.decode())
隨著工作中需求的變化,部落格會持續更新 python學習筆記3 python讀寫檔案
一 檔案的開啟模式 1 開啟檔案 1 f open d a.txt w 第乙個引數是檔案的路徑,如果只寫檔案的名字,預設是在當前執行目錄下的檔案 第二個引數是檔案的開啟模式 這種方式開啟檔案,在使用完了之後一定要記得,關閉檔案 f.close 2 with open d a.txt w as f 這...
Hadoop資料讀寫原理
資料流 mapreduce作業 job 是客戶端執行的單位 它包括輸入資料 mapreduce程式和配置資訊。hadoop把輸入資料劃分成等長的小資料傳送到mapreduce,稱之為輸入分片。hadoop為每個分片建立乙個map任務,由它來執行使用者自定義的map函式來分析每個分片中的記錄。這裡分片...
Hadoop資料讀寫原理
資料流 mapreduce作業 job 是客戶端執行的單位 它包括輸入資料 mapreduce程式和配置資訊。hadoop把輸入資料劃分成等長的小資料傳送到mapreduce,稱之為輸入分片。hadoop為每個分片建立乙個map任務,由它來執行使用者自定義的map函式來分析每個分片中的記錄。這裡分片...