apache kylin™是乙個開源的分布式分析引擎,提供hadoop/spark之上的sql查詢介面及多維分析(olap)能力以支援超大規模資料,最初由ebay inc. 開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。 ——摘自官網
(1)可擴充套件超快olap引擎:為減少在hadoop/spark上百億規模資料查詢延遲而設計;
(2)互動查詢能力:通過kylin使用者可以與hadoop資料進行亞秒級互動,在同樣的資料集上提供比hive更好的效能;
(3)hadoop ansi sql介面:kylin為hadoop提供標準sql介面,支援大部分查詢功能;
(4)多維立方體molap cube:使用者在kylin中能為百億以上的資料集定義資料模型並構建立方體;
(5)與bi無縫整合:與tableau、mstr、qliksense、hue、superset和powerbi/excel等能無縫整合;
(6)增量更新:支援資料增量更新;
(7)許可權控制:專案及表級別的訪問控制安全;
(1)核心:引擎框架包括元資料引擎、查詢引擎、job引擎及儲存引擎等,同時包括rest伺服器以響應客戶端請求;
(2)擴充套件:支援額為功能和特性外掛程式;
(3)整合:與排程系統、etl、監控等生命週期管理系統的整合;
(4)介面:在kylin核心基礎上擴充套件的第三方使用者介面;
(5)驅動:jdbc和odbc驅動以支援不同的工具和產品;
(1)資料來源:hive(預設)、kafka
(2)計算:構建cube多維立方體
(3)儲存:hbase
(4)解析:kylin sql解析器
kylin採用預計算模式,使用者只需提前定義好查詢維度,kylin會將計算結果儲存到hbase,為海量資料的查詢和分析提供亞秒級返回。以空間換時間的解決方案!實際是用窮舉的辦法把所有可能涉及到的維度的組合結果算一遍,然後存到hbase,利用hbase亞秒級查詢效能返回結果。
(1)normal:正常模式,n個維度可以構建2n個cube。
(2)mandatory:強制模式,當某個維度設定為mandatory,該維度會出現在所有的cube中。比如時間維度。
例如:a、b、c,a為mandatory模式,那麼構建cube的組合數為c2
0+c21
+c22=4。
(3)hierarchy:維度間通過依賴關係決定構建cube的組合關係,只有父維度存在子維度才會生效。比如國家、省份和城市這類字段。
例如:a、b、c,b依賴a,c依賴b,那麼構建cube的組合數為3,a->b->c、a->b和a。
(4)derived:衍生模式:乙個或多個維度可以由另外乙個維度生成。有外來鍵的情況下,假設有外來鍵列a,table表中b,c列且b為主鍵。列a和列b有對映關係,那麼查詢列a的同時kylin會自動查詢table表b列。該模式下cube構建的組合為ac、a和c。
(5)joint:聯合模式,有些維度單獨統計是沒有意義的,要麼同時出現要麼不出現。例如維度a和b是joint關係,那麼構建cube的組合是ab、abc和c。
(6)aggregationgroup:聚合模式,max dimension combination最大的維度組合數量設定為2,則構建cube的組合數為ab、ac、bc、a、b和c。
Kylin基本介紹
apache kylin 是乙個開源的分布式分析引擎,提供hadoop spark之上的sql查詢介面及多維分析 olap 能力以支援超大規模資料,最初由ebay inc.開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。摘自官網 1 可擴充套件超快olap引擎 為減少在hadoop spar...
Kylin框架基本介紹
apache kylin 是什麼?apache kylin 是乙個開源的分布式分析引擎,提供hadoop之上的sql查詢介面及多維分析 olap 能力以支援超大規模資料,最初由ebay inc.開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。apache kylin框架介紹 apache k...
kylin的基本介紹
kylin簡介 kylin 中國團隊研發的,是第乙個真正由中國人自己主導 從零開始 自主研發 並成為apache頂級開源專案 kylin的定位 對資料進行預計算 預處理,主要出現在輔助hive元件 查詢效率比較慢 提高查詢效率。hive的效能比較慢,支援sql,hbase的效能快,原生不支援sql。...