Spark SQL概念學習系列之分布式SQL引擎

2022-02-17 00:28:55 字數 1671 閱讀 6359

不多說,直接上乾貨!

parksql作為分布式查詢引擎:兩種方式

除了在spark程式裡使用spark sql,我們也可以把spark sql當作乙個分布式查詢引擎來使用,有以下兩種使用方式:

1.thrift jdbc/odbc服務

2.cli

sparksql作為分布式查詢引擎:thrift jdbc/odbc服務

thrift jdbc/odbc服務與hive 1.2.1中的hiveserver2一致

啟動jdbc/odbc服務:

./sbin/start-thriftserver.sh

sbin/start-thriftserver.sh命令接收所有 bin/spark-submit 命令列引數,新增乙個 --hiveconf 引數來指定hive的屬性。詳細的引數說明請執行命令   ./sbin/start-thriftserver.sh --help 。

服務預設監聽埠為localhost:10000。有兩種方式修改預設監聽埠:

修改環境變數:

export hive_server2_thrift_port=

export hive_server2_thrift_bind_host=

./sbin/start-thriftserver.sh \

--master \

...sparksql作為分布式查詢引擎:thrift jdbc/odbc服務

thrift jdbc/odbc服務預設監聽埠為localhost:10000。有兩種方式修改預設監聽埠:

修改環境變數:

export hive_server2_thrift_port=

export hive_server2_thrift_bind_host=

./sbin/start-thriftserver.sh \

--master \

...修改系統屬性:

./sbin/start-thriftserver.sh \

--hiveconf hive.server2.thrift.port= \

--hiveconf hive.server2.thrift.bind.host= \

--master

...sparksql作為分布式查詢引擎: beeline

使用 beeline 來測試thrift jdbc/odbc服務:

./bin/beeline

連線到thrift jdbc/odbc服務:

beeline> !connect jdbc:hive2://localhost:10000

連線hive需要拷貝hive-site.xml、core-site.xml、hdfs-site.xml到spark 的./conf/ 目錄。

sparksql作為分布式查詢引擎: spark sql cli

spark sql cli是乙個方便的工具,以本地模式執行hive的metastore服務和執行從命令列輸入查詢語句。

spark sql cli不能與thrift jdbc server互動。

連線hive需要拷貝hive-site.xml、core-site.xml、hdfs-site.xml到spark 的./conf/ 目錄。

Spark SQL概念學習系列之分布式SQL引擎

不多說,直接上乾貨!parksql作為分布式查詢引擎 兩種方式 除了在spark程式裡使用spark sql,我們也可以把spark sql當作乙個分布式查詢引擎來使用,有以下兩種使用方式 1.thrift jdbc odbc服務 2.cli sparksql作為分布式查詢引擎 thrift jdb...

Beam概念學習系列之PTransform資料處理

不多說,直接上乾貨!ptransform資料處理 ptransform對pcollection進行並行處理,每次處理1條,例如filter過濾 groupby分組 combine統計 join關聯等等,還允許根據業務邏輯編寫pardo。apache beam借鑑了函式式程式設計的不可變性,ptran...

Storm概念學習系列之storm的功能和三大應用

不多說,直接上乾貨!storm的功能 下面介紹storm 的三大主要應用 1 流處理 stream processing storm 可用來實時處理新資料和更新資料庫,兼具容錯性和可擴充套件性,即 storm 可以用來處理源源不斷流進來的訊息,處理之後將結果寫入某個儲存中。2 持續計算 contin...