spark讀取gz檔案

spark 1.5.1是支援直接讀取gz格式的壓縮包的，和普通檔案沒有什麼區別：

使用spark-shell進入spark shell 互動介面：

輸入命令：

sc.textfile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回車後是可以看到該目下很多個gz壓縮包檔案都被列印出來了。

單檔案gzip zzz.dat # 壓縮原始檔被刪除生成zzz.dat.gz

gzip -d zzz.dat.gz 解壓,原始檔被珊瑚,生成zzz.dat檔案

遞迴壓縮,好像只支援單檔案的壓縮

[hadoop@mini1 test]$ gzip -r t

[hadoop@mini1 test]$ ll

total 4

drwxr-xr-x. 2 hadoop root 4096 aug 9 12:24 t

[hadoop@mini1 test]$ cd t/

[hadoop@mini1 t]$ ll

total 8

-rwxr--r--. 1 hadoop root 475 aug 9 12:21 t1.dat.gz

-rwxr--r--. 1 hadoop root 475 aug 9 12:21 t2.dat.gz

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案，則需要加file usr local spark readme.md。測試時候發現，本地檔案必須在spark的安裝路徑內部或者平行讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首，則使用hd...

Spark讀取檔案

spark讀取json，parquet檔案

spark支援的一些常見的格式文字檔案，無任何的格式 json檔案，半結構化 parquet，一種流行的列式儲存格式 sequencefile，一種用於key value的hadoop檔案格式，如果需要讀hdfs資料的話，通常走hive的比較多。在企業中很少用，原因是寫sql的時候，能用spark...

spark讀取gz檔案

Spark讀取檔案

Spark讀取檔案

spark讀取json，parquet檔案

相關推薦