**:
spark sql構建在spark core之上,專門用來處理結構化資料(不僅僅是sql)。即spark sql是spark core封裝而來的!
spark sql在spark core的基礎上針對結構化資料處理進行很多優化和改進,
簡單來講:
spark sql 支援很多種結構化資料來源,可以讓你跳過複雜的讀取過程,輕鬆從各種資料來源中讀取資料。
當你使用sql查詢這些資料來源中的資料並且只用到了一部分欄位時,sparksql可以智慧型地只掃瞄這些用到的字段,而不是像sparkcontext.hadoopfile中那樣簡單粗暴地掃瞄全部資料。
可見,spark core與spark sql的資料結構是不一樣的!
Spark Core原始碼閱讀
目錄結構為 一 spark的部署方式standalone yarn mesos.21.standalone.2 2.mesos.3 3.yarn.3 二 standalone部署下的driver,master和work如何啟動.41.master 的啟動.42.work 的啟動.123.driver...
sparkcore 學習教程1
1.什麼是rdd?什麼是rdd?rdd resilient distributed dataset 叫做彈性分布式資料集,是spark中最基本的資料抽象,它代表乙個不可變 可分割槽 彈性。rdd是乙個可以並行操作的容錯的容錯集合集合。1.不可以變是指的是對rdd進行運算元計算,會生成乙個新的rdd,...
Spark core詳解系列二
collect 把rdd中所有元素返回到乙個陣列,返回到driver端的memory中。如非要檢視rdd中的資料 取出部分資料,或把rdd輸出到檔案系統。foreach rdd.foreach println rdd.foreachpartition partition partition.map ...