apache kylin™ 概覽
apache kylin™是乙個開源的分布式分析引擎,提供hadoop之上的sql查詢介面及多維分析(olap)能力以支援超大規模資料,
最初由ebay inc. 開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。
kylin是什麼?
- 可擴充套件超快olap引擎:
kylin是為減少在hadoop上百億規模資料查詢延遲而設計
- hadoop ansi sql 介面:
kylin為hadoop提供標準sql支援大部分查詢功能
- 互動式查詢能力:
通過kylin,使用者可以與hadoop資料進行亞秒級互動,在同樣的資料集上提供比hive更好的效能
- 多維立方體(molap cube):
使用者能夠在kylin裡為百億以上資料集定義資料模型並構建立方體
- 與bi工具無縫整合:
kylin提供與bi工具,如tableau,的整合能力,即將提供對其他工具的整合
- 其他特性:
- job管理與監控
- 壓縮與編碼
- 增量更新
- 利用hbase coprocessor
- 基於hyperloglog的dinstinc count近似演算法
- 友好的web介面以管理,監控和使用立方體
- 專案及立方體級別的訪問控制安全
- 支援ldap
kylin 生態圈
kylin 核心: kylin olap引擎基礎框架,包括元資料(metadata)引擎,查詢引擎,job引擎及儲存引擎等,同時包括rest伺服器以響應客戶端請求
擴充套件: 支援額外功能和特性的外掛程式
整合: 與排程系統,etl,監控等生命週期管理系統的整合
使用者介面: 在kylin核心之上擴充套件的第三方使用者介面
驅動: odbc 和 jdbc 驅動以支援不同的工具和產品,比如tableau
Apache Kylin的框架介紹
不多說,直接上乾貨!apache kylin能提供低延遲 sub second latency 的秘訣就是預計算,即針對乙個星型拓撲結構的資料立方體,預計算多個維度組合的度量,然後將結果儲存在hbase中,對外暴露jdbc odbc rest api的查詢介面,即可實現實時查詢。如上圖所示,kyli...
Apache Kylin的框架介紹
apache kylin能提供低延遲 sub second latency 的秘訣就是預計算,即針對乙個星型拓撲結構的資料立方體,預計算多個維度組合的度量,然後將結果儲存在hbase中,對外暴露jdbc odbc rest api的查詢介面,即可實現實時查詢。如上圖所示,kylin從hadoop h...
Apache Kylin使用總結
apache kylin是一款以預處理cube來提高查詢速度的olap引擎。首先對維度表做個簡單的介紹。麒麟只支援星型模型,也就是說乙個事實表加上多個維度表。維度表不存在支架型結構。維度表存放的大多是描述性字段,用於篩選。其實以sql的角度來看就是group by filter through wh...