spark讀取gz檔案

2021-09-08 13:22:13 字數 675 閱讀 7851

spark 1.5.1是支援直接讀取gz格式的壓縮包的,和普通檔案沒有什麼區別:

使用spark-shell進入spark shell 互動介面:

輸入命令:

sc.textfile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回車後是可以看到該目下很多個gz壓縮包檔案都被列印出來了。

單檔案gzip zzz.dat # 壓縮 原始檔被刪除 生成zzz.dat.gz

gzip -d  zzz.dat.gz  解壓,原始檔被珊瑚,生成zzz.dat檔案

遞迴壓縮,好像 只支援單檔案的壓縮

[hadoop@mini1 test]$ gzip -r t

[hadoop@mini1 test]$ ll

total 4

drwxr-xr-x. 2 hadoop root 4096 aug 9 12:24 t

[hadoop@mini1 test]$ cd t/

[hadoop@mini1 t]$ ll

total 8

-rwxr--r--. 1 hadoop root 475 aug 9 12:21 t1.dat.gz

-rwxr--r--. 1 hadoop root 475 aug 9 12:21 t2.dat.gz

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...

Spark讀取檔案

spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...

spark讀取json,parquet檔案

spark支援的一些常見的格式 文字檔案,無任何的格式 json檔案,半結構化 parquet,一種流行的列式儲存格式 sequencefile,一種用於key value的hadoop檔案格式,如果需要讀hdfs資料的話,通常走hive的比較多。在企業中很少用,原因是寫sql的時候,能用spark...