不過多是將檔案發到hdfs,明明記得可以讀取本地檔案,後來在林子雨老師廈門大學大資料實驗室部落格上找到解決辦法:
本地檔案資料讀寫
textfile = sc.textfile("file:///usr/local/spark/mycode/wordcount/word123.txt")
並且需要注意,要載入本地檔案,必須採用「file:///」開頭的這種格式。執行上上面這條命令以後,並不會馬上顯示結果,因為,spark採用惰性機制,只有遇到「行動」型別的操作,才會從頭到尾執行所有操作。 spark讀取不了本地檔案
環境 ubuntu16.04 在spark集群中想要獲取本地檔案資料集iris.txt,但是卻報了上圖這樣的錯誤,顯示這個檔案在這個路徑不存在 然後我在本地這個檔案路徑檢視是否有這個txt檔案 結果發現本地有這個檔案啊,這就有點問題了 然後上網查資料,資料如下 在spark shell裡執行text...
Spark讀取檔案
spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...
Spark讀取檔案
spark預設讀取的是hdfs上的檔案。如果讀取本地檔案,則需要加file usr local spark readme.md。測試時候發現,本地檔案必須在spark的安裝路徑內部或者平行 讀取hdfs檔案,可以這樣指定路徑 hdfs ns1 tmp test.txt。如果不指定任何字首,則使用hd...