優化思路:
impala中,提供了10大類優化思路和方法:
1.分割槽
2.連線查詢效能考慮
3.表和列資訊統計
4.impala效能測試:
5.基準impala查詢:
6. 控制impala的資源使用情況:
7.使用impala查詢amazon s3的檔案系統。
8.hdfs快取
9.執行計畫和查詢概況
10. 資料塊傾斜
表分割槽:基於不同列值進行查詢,避免大量無效資訊過濾,和常規資料庫分割槽理念一致。
表和列資訊統計:概要表統計和列統計的概述。收集表和列的統計,計算統計報表,幫助impala自動優化效能的查詢,而不需要更改sql查詢語句。
impala效能測試:做一些安裝後的測試以確保impala使用最優設定的效能基準測試之前,進行任何。
基準impala查詢:配置和樣本資料,您使用的impala最初的實驗和測試資料往往是不適合做效能測試。
控制impala的資源使用情況:越多的impala記憶體可以利用,你可以期待更好的查詢效能。但在集群中執行的其他工作一樣,你必須權衡確保hadoop所有元件有足夠的記憶體來執行的前提下,你可能使用蓋的記憶體,impala可以使用,不能不能夠此時彼。
參考:
cdp 7:
cdh 6
Impala簡明調優手冊
impala是cloudera開發 開源的乙個原生於hadoop的互動式sql引擎。本身impala的出現並不是為了替代hive pig等現有的 常用的etl工具。實用的場景往往於商業智慧型密不可分,比如對資料進行聚合 aggregation 做一些簡單的分析統計 比如window function...
調優 Nginx效能調優
一.nginx優化配置 1.主配置檔案優化 注 部分配置詳解 worker processes 8 nginx程序數,建議按照cpu數目來指定,一般為它的倍數。worker cpu affinity 00000001 00000010 00000100 00001000 00010000 00100...
Spark效能調優 JVM調優
通過一張圖讓你明白以下四個問題 1.jvm gc機制,堆記憶體的組成 2.spark的調優為什麼會和jvm的調優會有關聯?因為scala也是基於jvm執行的語言 3.spark中oom產生的原因 4.如何在jvm這個層面上來對spark進行調優 補充 spark程式執行時 jvm堆記憶體分配比例 r...