spark core 和spark sql的區別

**：

spark sql構建在spark core之上，專門用來處理結構化資料(不僅僅是sql)。即spark sql是spark core封裝而來的！

spark sql在spark core的基礎上針對結構化資料處理進行很多優化和改進，

簡單來講：

spark sql 支援很多種結構化資料來源，可以讓你跳過複雜的讀取過程，輕鬆從各種資料來源中讀取資料。

當你使用sql查詢這些資料來源中的資料並且只用到了一部分欄位時，sparksql可以智慧型地只掃瞄這些用到的字段，而不是像sparkcontext.hadoopfile中那樣簡單粗暴地掃瞄全部資料。

可見，spark core與spark sql的資料結構是不一樣的!

Spark Core原始碼閱讀

目錄結構為一 spark的部署方式standalone yarn mesos.21.standalone.2 2.mesos.3 3.yarn.3 二 standalone部署下的driver，master和work如何啟動.41.master 的啟動.42.work 的啟動.123.driver...

sparkcore 學習教程1

1.什麼是rdd？什麼是rdd？rdd resilient distributed dataset 叫做彈性分布式資料集，是spark中最基本的資料抽象，它代表乙個不可變可分割槽彈性。rdd是乙個可以並行操作的容錯的容錯集合集合。1.不可以變是指的是對rdd進行運算元計算，會生成乙個新的rdd,...

Spark core詳解系列二

collect 把rdd中所有元素返回到乙個陣列，返回到driver端的memory中。如非要檢視rdd中的資料取出部分資料，或把rdd輸出到檔案系統。foreach rdd.foreach println rdd.foreachpartition partition partition.map ...

spark core 和spark sql的區別

Spark Core原始碼閱讀

sparkcore 學習教程1

Spark core詳解系列二

相關推薦