相比sparksql
而言,presto
在查詢效能上是優於sparksql的,同時對資料來源的支援也是比sparksql
豐富的。當然除了這兩款olap
外,還有impala,clickhouse,hawq,greenplum
等其他olap
引擎,這些引擎都有各自的優勢和適用場景
#解壓
tar -zxvf presto-server-0.236.tar.gz -c /usr/local
# 更名
mv presto-server-0.236.tar.gz presto
# 安裝目錄下建立etc目錄
cd /usr/local/presto/ &&
mkdir etc
# 建立節點資料目錄
mkdir data
#
接下來建立配置檔案
cd /usr/local/presto/etc
# config.properties persto server的配置
# 單個查詢在整個集群上夠使用的最大使用者記憶體
query.max-memory=3gb
# 單個查詢在每個節點上可以使用的最大使用者記憶體
query.max-memory-per-node=1gb
# 單個查詢在每個節點上可以使用的最大使用者記憶體+系統記憶體(user memory: hash join,agg等,system memory:input/output/exchange buffers等)
query.max-total-memory-per-node=2gb
discovery-server.enabled=true
discovery.uri=
eof# node.properties 節點配置
cat<< eof > node.properties
node.environment=production
node.id=node01
node.data-dir=/data
eof#jvm.config 配置,注意-dhadoop_user_name配置,替換為你需要訪問hdfs的使用者
cat<< eof > jvm.config
-server
-xmx3g
-xx:+useg1gc
-xx:g1heapregionsize=32m
-xx:+usegcoverheadlimit
-xx:+explicitgcinvokesconcurrent
-xx:+heapdumponoutofmemoryerror
-xx:+exitonoutofmemoryerror
-dhadoop_user_name=root
eof#log.properties
#default level is info. `error`,`warn`,`debug`
cat<< eof > log.properties
com.facebook.presto=info
eof# catalog配置,就是各種資料來源的配置,我們使用hive,注意替換為你自己的thrift位址
mkdir /usr/local/presto/etc/catalog
cat< catalog/hive.properties
connector.name=hive-hadoop2
# 換成你自己metastore位址
hive.metastore.uri=thrift:
hive.parquet.use-column-names=true
hive.allow-rename-column=true
hive.allow-rename-table=true
eofhudi-presto-bundle-0.5.2-incubating.jar
# 客戶端安裝
cd /usr/local/presto
wget presto-cli-0.236-executable.jar
mv presto-cli-0.236-executable.jar presto
chmod u+x presto
ln -s /usr/local/presto/presto /usr/bin/presto
# 設定環境變數
vim /etc/profile
export presto_home=/usr/local/presto
export path=
$presto_home/bin:$path
# 啟用環境變數
source /etc/profile
# 啟動
launcher start
啟動之後用jps檢視,可以看到乙個程序
prestoserver
presto
連線hive
,前提hive的metastore
要是啟動好的
hive --service metastore &
之後presto
就可以連線hive
了,會進入presto
的命令列,就可以使用sql
命令進行查詢
[root@mypc01 presto]# .
/presto --server 192.168
.xx.
101:
8080
--catalog hive
presto> show schemas;
schema
----
----
----
----
----
default
information_schema
emp
如果報錯
failed: failed connecting to hive metastore:
[192.168
.xx.
101:
9083
]
請確認metastore
是否啟動
hive --service metastore &
centos7安裝使用presto
客戶端查詢比較一下效率 測試資料量 100w條 執行sql select count 1 from fake db.fake table 執行sql select count distinct company from fake db.fake table where cardno like 199...
flink 入門及安裝
如今,每個組織中都在大量使用實時處理。欺詐檢測,醫療保健中的實時警報和網路攻擊警報等用例需要實時處理即時資料。即使是幾毫秒的延遲也會產生巨大的影響。這種實時用例的理想工具是可以輸入資料流而不是批處理的工具。apache flink是該實時處理工具 解壓 root mypc01 bin tar zxv...
Python入門及安裝
簡介 是用來編寫應用程式的高階程式語言,內建電池 哲學 簡單優雅,盡量寫容易看明白的 盡量寫少的 適合幹嘛 網路應用 後台服務 日常些工具,如系統管理員需要的指令碼任務 把其他語言開發的程式在包裝起來,方便使用。缺點安裝python windows下 python是跨平台的,可以執行在windows...