因為沒有把前面的整理出來,所以就先把後邊presto要寫的知識點寫一下。
對於想實現類似於hive -e 或者是hive -f 的功能,之後重定向查詢的檔案中這種功能,presto當然也提供了。
可以想象presto為快速版的hive,對於想要快速的出資料非常有效(當然對於大資料表的join支援不是很好,但也反應了記憶體的問題,如果機器數量足夠多,各種join都不是問題)
2.實現:需要安裝presto的客戶端的jar包presto官網客戶端鏈結
用 --help可以看到更多的選項
e.g:./presto --server prestomaster:7878 --catalog hive --schema sss --help,就會看到更多需要的選項
Presto初步認識
presto是乙個分布式sql查詢引擎,它被設計為用來專門進行高速 實時的資料分析。presto 的實現和 hive 有著本質的不同 hive 是把乙個 query 轉化成多個 stage 的 mapreduce 的任務,然後乙個接乙個執行。執行的中間結果通過對磁碟的讀寫來同步。然而,presto ...
Presto查詢優化
合理設定分割槽 與hive類似,presto會根據元資訊讀取分割槽資料,合理的分割槽能減少presto資料讀取量,提公升查詢效能。使用列式儲存 presto對orc檔案讀取做了特定優化,因此在hive中建立presto使用的表時,建議採用orc格式儲存。相對於parquet,presto對orc支援...
Presto基本配置
介紹 presto是由facebook開源,基於記憶體的分布式查詢引擎。支援多資料來源,可支援pb級海量資料查詢,本身不作資料儲存。由於基於記憶體查詢,減少了io開銷,故查詢效率很高,但不適用於多表聯合查詢。架構 presto主要配置檔案如下 catalog 配置各資料來源的資訊,如hive,mon...