獲取原文
簡短介紹
之前apache kylin相關分享
安裝篇:cdh集群下apache kylin3.1.0安裝
問題篇:關於kylin安裝過程遇到的5個問題
小白篇(十五):大資料kylin介紹和使用
說明:kylin從2023年到現今,進行了4次大版本的迭代。其中引入了很多新特性,還是值得我們關注的。
說明:有動手實操過cube設計,或者看過之前我分享的kylin使用的小夥伴們應該知道。在建立cube時:
說明:當我們的cube設計體現到物理上時,就是如圖中顯示的。
先是表關聯,之後計算cube,最後結果根據不同維度組合落入多張hbase表中。
說明:在cube構建過程中,其實是很多次,不同維度的組合計算。最終將所有預計算的結果存放到hbase中。
說明:kylin支援多種資料來源的接入。當資料接入後,採用不同的計算引擎進行預計算。之後將資料儲存到hbase中,最後可通過bi工具對kylin計算結果資料查詢。
說明:kylin是單節點部署模式,同時kylin的部署分為2種型別的節點。一種是job,一種是query。
如果乙個節點同時承擔job和query的工作,那麼型別設定為all。
說明:如果針對一種產品。我們想知道:產品在什麼時間,什麼地點,銷售了多少。如果我們提前進行了預計算,是不是可以立馬從中定位到資料呢?圖中設計的維度:產品、時間、地點。針對維度進行預計算,得出所有的結果資訊,就是我們的資料立方體。之後我們可以通過任意組合就能很快的獲取到所需的資料。
說明:那麼kylin是如何做的呢?kylin將所有維度組合,分別進行組合計算,之後生成不同的組合表,存入到hbase中。也就形成了我們所說的立方體。這裡可以理解為2^n種組合。
說明:顯然,如果進行所有維度的組合計算,將要進行2^n次計算。這是乙個幾何倍數的運算,非常的恐怖。那麼kylin為了優化計算方法,進行維度的部分計算。從而大大減少計算次數。但是在後續查詢時,還是需進行少量的查詢計算。這就是kylin剪枝維度的過程。
說明:部分計算是kylin cube中乙個很重要的優化點。這樣有效的控制了維度組合的**。圖中白色部分是預計算的結果,灰色部分可以通過白色部分的結果來重新獲取。所以有時不用計算所有維度。只是部分維度預計算,這樣也大大縮短了我們預計算的時間。同時也節省了一些磁碟空間。
kylin目前作為一款olap工具還是非常耀眼的。很多廠都在用它。所以小夥伴們可以多了解下哦。特別是cube優化這塊。國產大資料元件還是蠻香的 ^_^
架構概述圖
日誌 開車要掌握的十六大絕技
開車時,除了保持與前後的安全距離外,還應盡量避免與左右手的車輛保持並列行駛,通過提速超車或放慢速度來錯開並列行駛者,並列行駛的最大壞處是分心,容易使注意力從前方分散到左右,造成緊張不安的情緒。絕技二 不跟大貨 計程車 公交車 外地車,甚至不跟麵包車,好處自己去體會。絕技三 寧靠中間 不沿路邊,如果三...
愛情智慧型 女性提出分手的十六大原因
想挽回你的愛情,你就需要知道你另一半的她,是為什麼跟你分手!往往她在分手表面上說得最多的話,就是我們不合適,我對你沒感覺了,其實果真如此嗎?其實她跟你說這些客套話,僅僅是為了讓你的內心更好受而已。分手往往是在戀愛戀愛過程中,由很多問題演變而來的結果。而通過盤點以下這些分手原因,你會找出,你分手的真實...
小白篇 七 大資料HiveSql優化
獲取原文 簡短介紹 是不是有很多小夥伴,上完一天班之後感覺啥也沒幹呢?是不是每天就跑了幾次hivesql一天就結束了呢?那麼優化hivesql可以給我們帶來如下的提公升 是不是每天可以執行更多hivesql了,做更多的資料需求了呢?了解底層技術引擎的工作流程,能夠更好的告訴我們該如何優化。mapre...