spark 1.5.1是支援直接讀取gz格式的壓縮包的,和普通檔案沒有什麼區別:
使用spark-shell進入spark shell 互動介面:
輸入命令:
sc.textfile("\huawei\mr\20161120\880873\*.gz").foreach(println)
回車後是可以看到該目下很多個gz壓縮包檔案都被列印出來了。
單檔案gzip zzz.dat # 壓縮 原始檔被刪除 生成zzz.dat.gz
gzip -d zzz.dat.gz 解壓,原始檔被珊瑚,生成zzz.dat檔案
遞迴壓縮,好像 只支援單檔案的壓縮
[hadoop@mini1 test]$ gzip -r t
[hadoop@mini1 test]$ ll
total 4
drwxr-xr-x. 2 hadoop root 4096 aug 9 12:24 t
[hadoop@mini1 test]$ cd t/
[hadoop@mini1 t]$ ll
total 8
-rwxr--r--. 1 hadoop root 475 aug 9 12:21 t1.dat.gz
-rwxr--r--. 1 hadoop root 475 aug 9 12:21 t2.dat.gz
Spark讀取檔案
spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...
Spark讀取檔案
spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...
spark讀取json,parquet檔案
spark支援的一些常見的格式 文字檔案,無任何的格式 json檔案,半結構化 parquet,一種流行的列式儲存格式 sequencefile,一種用於key value的hadoop檔案格式,如果需要讀hdfs資料的話,通常走hive的比較多。在企業中很少用,原因是寫sql的時候,能用spark...