簡介:
presto是乙個大資料分析引擎,不屬於hadoop體系,他是基於記憶體的。他的集群模式是主從式的。
他可以與任何的大資料儲存引擎做整合,整合的時候使用它的connectors整合
從這裡我們可以他可以和kafka、mysql、記憶體、hive來做整合
安裝:
1.解壓:tar -zxvf presto-server-0.217.tar.gz -c ~/training/
2.建立etc目錄,幷包含以下配置檔案
cd ~/training/presto-server-0.217/
mkdir etc
① node properties: 節點的配置資訊
② jvm config: 命令列工具的jvm配置引數
③ config properties: presto server的配置引數
④ catalog properties: 資料來源(connectors)的配置引數
⑤ log properties:日誌引數配置
node.properties
#集群名稱。所有在同乙個集群中的presto節點必須擁有相同的集群名稱。
node.environment=production
#每個presto節點的唯一標示。每個節點的node.id都必須是唯一的。在presto進行重啟或者公升級過程中每個節點的node.id必須保持不變。如果在乙個節點上安裝多個presto例項(例如:在同一臺機器上安裝多個presto節點),那麼每個presto節點必須擁有唯一的node.id。
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff
# 資料儲存目錄的位置(作業系統上的路徑)。presto將會把日期和資料儲存在這個目錄下。
node.data-dir=
/root/training/presto-server-
0.217
/data
jvm.config(記憶體相關配置)
-server
-xmx16g
-xx:
+useg1gc
-xx:g1heapregionsize=
32m-xx:
+usegcoverheadlimit
-xx:
+explicitgcinvokesconcurrent
-xx:
+heapdumponoutofmemoryerror
-xx:
+exitonoutofmemoryerror
config.properties(因為測試用到的一台虛擬機器所以我們只簡單配置乙個檔案就行了,如果我們是全分布式的需要配置主節點和從節點的)
log.properties (日誌相關配置)
com.facebook.presto=info
整合hive,整合hive的時候我們必須在presto的etc資料夾下建立乙個catalog目錄,所有整合資料來源都在這裡配置
mkdir /root/training/presto-server-0.217/etc/catalog
hive.properties(整合hive的配置檔案)
#註明hadoop的版本
connector.name=hive-hadoop2
#hive-site中配置的位址
hive.metastore.uri=thrift://
192.168
.157
.111
:9083
#hadoop的配置檔案路徑
hive.config.resources=
/root/training/hadoop-
3.1.2
/etc/hadoop/core-site.xml,
/root/training/hadoop-
3.1.2
/etc/hadoop/hdfs-site.xml
注意:要訪問hive的話,需要將hive的metastore啟動:hive --service metastore
這個視窗不能關掉
用來另乙個視窗啟動presto
啟動presto server
./launcher start
執行presto-cli
重新命名jar包,並增加執行許可權
cp presto-cli-0.217-executable.jar presto
chmod a+x presto
連線presto server
./presto --server localhost:8080 --catalog hive --schema default
然後我們使用presto命令列模式連線到hive的default預設的資料庫中
可以使用show tables檢視一下default庫中的table,並檢視一下它裡邊的表
這樣我們就把presto配置完成了
資料分析引擎Presto
presto與hbase的架構特別相似。都是主從架構思想。由於我們使用的hive只是把sql語句翻譯成mapreduce,然後再交給yarn去執行,我們都知道,yarn執行過程中,會產生資料落地,進而影響效率。因此我們通常用presto與hive做乙個整合,presto是完全記憶體計算,presto...
Apache Kylin大資料分析引擎
apache kylin kylin最開始由 ebay公司貢獻給開源社群。apache kylin支援你通過3個步驟以亞秒級的延遲查詢巨量的資料集合。1.在hadoop上定義乙個星型資料結構schema。2.根據定義的表來建立資料立方體。3.通過odbc,jdbc or restful api用標準...
《Python 金融大資料分析 python簡介》
1.風格 編輯python在設計上堅持了清晰劃一的風格,這使得python成為一門易讀 易維護,並且被大量使用者所歡迎的 用途廣泛的 語言。設計者開發時總的指導思想是,對於乙個特定的問題,只要有一種最好的方法來解決就好了。這在由tim peters寫的python格言 稱為the zen of py...