spark sql官網:
sparksql是構建在sparkcore之上的元件,用於處理結構化的資料。它將資料抽象為dataframe並提供豐富的api,並且sparksql允許使用sql指令碼進行操作,使得資料查詢變得非常的容易使用。
同時,sparksql除了操作簡單,api豐富之外,對於資料來源的支援也很強大。你可以從,如:
1)hdfs
2)parguet檔案
3)json檔案
4)jdbc
5)odbc
6)hive
等多種資料來源來建立dataframe,也可以從spark的rdd轉換成dataframe。
下面是scala的**示例:
import以上**將rdd通過structtype轉換成了dataframe,然後分別採用dataframe的api和sql兩種方式查詢出了結果,如圖:org.apache.spark.rdd.rdd
import
org.apache.spark.sql.
import
org.apache.spark.sql.types.
import
org.apache.spark.
/*** @description spark sql demo
* @author lay
* @date 2018/12/09 21:33
*/object sparksqldemo
//建立dataframe
df =sqlcontext.createdataframe(userrdd, schema)
} def main(args: array[string]): unit =
}
ubuntu 離線 安裝做任意版本的Scala
wget c 這裡安裝的是2.11.8,如果要安裝其它版本,請在這裡找相應的鏈結 2.解壓scala tar zxf scala 2.11.8.tgz 3.建立scala目錄 mkdir usr share scala 4.拷貝scala目錄中的所有檔案至scala目錄 cd scala 2.11....
SparkSQL的發展歷史
hadoop剛開始出來的時候,使用的是 hadoop 自帶的分布式計算系統 mapreduce 但是mapreduce 的使用難度較大,所以就開發了 hive hive 程式設計用的是類 sql的 hql的語句,這樣程式設計的難度就大大的降低了,hive 的執行原理就是將 hql語句經過語法解析 邏...
SparkSQL的執行模式
1 dsl模式 通過呼叫方法 datafame.select name show datafame.filter age 25 show 2 sql模式 通過執行sql 1 先建立一張表 乙個sparkcontext可以多次建立 sparksession。session內可訪問,乙個sparkses...