不多說,直接上乾貨!
parksql作為分布式查詢引擎:兩種方式
除了在spark程式裡使用spark sql,我們也可以把spark sql當作乙個分布式查詢引擎來使用,有以下兩種使用方式:
1.thrift jdbc/odbc服務
2.cli
sparksql作為分布式查詢引擎:thrift jdbc/odbc服務
thrift jdbc/odbc服務與hive 1.2.1中的hiveserver2一致
啟動jdbc/odbc服務:
./sbin/start-thriftserver.sh
sbin/start-thriftserver.sh命令接收所有 bin/spark-submit 命令列引數,新增乙個 --hiveconf 引數來指定hive的屬性。詳細的引數說明請執行命令 ./sbin/start-thriftserver.sh --help 。
服務預設監聽埠為localhost:10000。有兩種方式修改預設監聽埠:
修改環境變數:
export hive_server2_thrift_port=
export hive_server2_thrift_bind_host=
./sbin/start-thriftserver.sh \
--master \
...sparksql作為分布式查詢引擎:thrift jdbc/odbc服務
thrift jdbc/odbc服務預設監聽埠為localhost:10000。有兩種方式修改預設監聽埠:
修改環境變數:
export hive_server2_thrift_port=
export hive_server2_thrift_bind_host=
./sbin/start-thriftserver.sh \
--master \
...修改系統屬性:
./sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port= \
--hiveconf hive.server2.thrift.bind.host= \
--master
...sparksql作為分布式查詢引擎: beeline
使用 beeline 來測試thrift jdbc/odbc服務:
./bin/beeline
連線到thrift jdbc/odbc服務:
beeline> !connect jdbc:hive2://localhost:10000
連線hive需要拷貝hive-site.xml、core-site.xml、hdfs-site.xml到spark 的./conf/ 目錄。
sparksql作為分布式查詢引擎: spark sql cli
spark sql cli是乙個方便的工具,以本地模式執行hive的metastore服務和執行從命令列輸入查詢語句。
spark sql cli不能與thrift jdbc server互動。
連線hive需要拷貝hive-site.xml、core-site.xml、hdfs-site.xml到spark 的./conf/ 目錄。
Spark SQL概念學習系列之分布式SQL引擎
不多說,直接上乾貨!parksql作為分布式查詢引擎 兩種方式 除了在spark程式裡使用spark sql,我們也可以把spark sql當作乙個分布式查詢引擎來使用,有以下兩種使用方式 1.thrift jdbc odbc服務 2.cli sparksql作為分布式查詢引擎 thrift jdb...
Beam概念學習系列之PTransform資料處理
不多說,直接上乾貨!ptransform資料處理 ptransform對pcollection進行並行處理,每次處理1條,例如filter過濾 groupby分組 combine統計 join關聯等等,還允許根據業務邏輯編寫pardo。apache beam借鑑了函式式程式設計的不可變性,ptran...
Storm概念學習系列之storm的功能和三大應用
不多說,直接上乾貨!storm的功能 下面介紹storm 的三大主要應用 1 流處理 stream processing storm 可用來實時處理新資料和更新資料庫,兼具容錯性和可擴充套件性,即 storm 可以用來處理源源不斷流進來的訊息,處理之後將結果寫入某個儲存中。2 持續計算 contin...