Kylin基本介紹

apache kylin™是乙個開源的分布式分析引擎，提供hadoop/spark之上的sql查詢介面及多維分析（olap）能力以支援超大規模資料，最初由ebay inc. 開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。 ——摘自官網

（1）可擴充套件超快olap引擎：為減少在hadoop/spark上百億規模資料查詢延遲而設計；

（2）互動查詢能力：通過kylin使用者可以與hadoop資料進行亞秒級互動，在同樣的資料集上提供比hive更好的效能；

（3）hadoop ansi sql介面：kylin為hadoop提供標準sql介面，支援大部分查詢功能；

（4）多維立方體molap cube：使用者在kylin中能為百億以上的資料集定義資料模型並構建立方體；

（5）與bi無縫整合：與tableau、mstr、qliksense、hue、superset和powerbi/excel等能無縫整合；

（6）增量更新：支援資料增量更新；

（7）許可權控制：專案及表級別的訪問控制安全；

（1）核心：引擎框架包括元資料引擎、查詢引擎、job引擎及儲存引擎等，同時包括rest伺服器以響應客戶端請求；

（2）擴充套件：支援額為功能和特性外掛程式；

（3）整合：與排程系統、etl、監控等生命週期管理系統的整合；

（4）介面：在kylin核心基礎上擴充套件的第三方使用者介面；

（5）驅動：jdbc和odbc驅動以支援不同的工具和產品；

（1）資料來源：hive(預設)、kafka

（2）計算：構建cube多維立方體

（3）儲存：hbase

（4）解析：kylin sql解析器

kylin採用預計算模式，使用者只需提前定義好查詢維度，kylin會將計算結果儲存到hbase，為海量資料的查詢和分析提供亞秒級返回。以空間換時間的解決方案！實際是用窮舉的辦法把所有可能涉及到的維度的組合結果算一遍，然後存到hbase，利用hbase亞秒級查詢效能返回結果。

（1）normal：正常模式，n個維度可以構建2n個cube。

（2）mandatory：強制模式，當某個維度設定為mandatory，該維度會出現在所有的cube中。比如時間維度。

例如：a、b、c，a為mandatory模式，那麼構建cube的組合數為c2

0+c21

+c22=4。

（3）hierarchy：維度間通過依賴關係決定構建cube的組合關係，只有父維度存在子維度才會生效。比如國家、省份和城市這類字段。

例如：a、b、c，b依賴a，c依賴b，那麼構建cube的組合數為3，a->b->c、a->b和a。

（4）derived：衍生模式：乙個或多個維度可以由另外乙個維度生成。有外來鍵的情況下，假設有外來鍵列a，table表中b,c列且b為主鍵。列a和列b有對映關係，那麼查詢列a的同時kylin會自動查詢table表b列。該模式下cube構建的組合為ac、a和c。

（5）joint：聯合模式，有些維度單獨統計是沒有意義的，要麼同時出現要麼不出現。例如維度a和b是joint關係，那麼構建cube的組合是ab、abc和c。

（6）aggregationgroup：聚合模式，max dimension combination最大的維度組合數量設定為2，則構建cube的組合數為ab、ac、bc、a、b和c。