Kylin構建企業大資料分析平台的4種部署方式

部署kylin非常簡單，稱為非侵入式安裝，也就是不需要去修改已有的

kylin部署的架構是乙個分層的結構，最底層是資料**層，我們可以通過sqoop等工具將資料遷移到hdfs分布式檔案系統。kylin依賴hadoop平台，包括元件hbase，hive，mapreduce等，即kylin執行在hadoop構建的大資料層之上，kylin平台部署好之後，業務系統連線kylin，kylin就把壓力發布到hadoop上做平行計算和查詢。

對於kylin的部署架構，一般都四種典型部署方式，從簡單到複雜。

1. 第一種方式：

單例項部署方式（single instance）。在hadoop集群的乙個節點上部署，然後啟動即可。建模人員通過kylin web登入，進行建模和建立cube。業務分析系統等傳送sql到kylin，kylin查詢cube並返回結果。

這種部署最大特點是簡單快捷，而是單點，如果併發請求比較多（qps > 50），單台kylin節點將成為瓶頸，所以推薦使用集群（cluster）部署方式。

2. 第二種方式：

kylin部署集群方式相對來說也簡單，只需要增加kylin的節點數，因為kylin的元資料（metadata）是儲存在hbase中，只需要在kylin中配置，讓kylin的每個節點都能訪問同乙個metadata表就形成了kylin集群（kylin.metadata.url 值相同）。並且kylin集群中只有乙個kylin例項執行任務引擎（kylin.server.mode＝all)，其它kylin例項都是查詢引擎(kylin.server.mode=query)模式。通常可以使用ldap來管理使用者許可權。

為了實現負載均衡，即將不同使用者的訪問請求通過load balancer（負載均衡器）（比如lvs，nginx等）分發到每個kylin節點，保證kylin集群負載均衡。對於負載均衡器可以啟用ssl加密，安裝防火牆，對外部使用者只用暴露負載均衡器的位址和埠號，這樣也保證kylin系統對外部來說是隔離的。

我們的生產環境中使用的lb是nginx，使用者通過lb的位址訪問kylin時，lb將請求通過負載均衡排程演算法分發到kylin集群的某乙個節點，不會出現單點問題，同時如果某乙個kylin節點掛掉了，也不會影響使用者的分析。

這種方式也不是完美的，但是一般場景下是可以滿足的。

3. 第三種方式：

kylin非常適合讀寫分離，原因是kylin的工作負載有兩種：

其實kylin也很容易部署這種組網方式。你需要單獨部署一套hbase集群，在部署kylin時，hadoop配置項指向運算的集群，hbase的配置項指向單獨部署的hbase集群。說白了，就是hadoop和hbase集群的分離。

這種部署方式通常有以下步驟：

步驟一：分布部署hadoop（mapreduce計算集群，以下簡稱計算）集群和hbase（hdfs儲存，以下簡稱儲存）集群；兩套集群環境的hadoop核心版本要一致，分別有各自的hdfs、zookeeper等元件；

步驟二：在準備執行kylin的伺服器上，安裝和配置hadoop（計算）集群的客戶端；通過 hadoop , hdfs , hive , mapred 等命令，可以訪問hadoop集群上的服務和資源；

步驟三：在準備執行kylin的伺服器上，安裝和配置hbase（儲存）集群的hbase客戶端；通過 hbase 命令，可以訪問和操作hbase集群；

步驟四：確保hadoop（計算）集群和hbase（儲存）集群的網路互通，且無需額外驗證；可以從hadoop（計算）集群的任一節點上，拷貝檔案到hbase（儲存）集群的任一節點；

步驟五：確保在準備執行kylin的伺服器上，通過hdfs命令列加上hbase集群namenode位址的方式（比如hdfs dfs -ls hdfs://pro-jsz800000:8020/），可以訪問和操作儲存集群的hdfs。

步驟六：為了提公升kylin查詢響應效率，準備執行kylin的伺服器，在網路上應靠近hbase集群，以確保密集查詢時的網路低延遲；

步驟七：編輯conf/kylin.properties，設定 kylin.hbase.cluster.fs 為hbase集群hdfs的url，例如：kylin.hbase.cluster.fs=hdfs://pro-jsz800000:8020

步驟八：重啟kylin服務例項

4. 第四種方式：

前面三種方式，應該是絕大多數公司或個人研究採用的部署方式，其實還有一種更高階的部署是staging和production多環境的部署。其實做開發的一般都會經歷這樣的環境，我們乙個需求完成後，首先會進行開發環境測試，然後部署到staging（可以理解為production生產環境的映象，或者測試環境），最後沒有問題後才會發布到production生產環境，這樣做可以避免不當的設計導致對生產環境的破壞。

使用這種方案的場景：

假如乙個新使用者使用kylin，可能他對cube設計不是很熟悉，建立了乙個非常不好的cube，導致cube計算時產生大量的不必要的運算，或者查詢花費的時間很長，會對其他業務造成影響。我們不希望這個有問題的cube能進入生產環境，那麼就需要建立乙個staging環境，或則成為qa的環境。

kylin提供了乙個工具，幾分鐘就可以將乙個cube從staging環境遷移到production環境，不需要在新環境中重新build。因為在生產環境的cube，將不允許修改，只能做增量的build。這樣做保證了staging和production的分離，保證發布到production上的cube都是經過評審過的，所以對production環境不會造成不可預料的影響，從而保證了production環境的穩定。

Kylin構建企業大資料分析平台的4種部署方式

CM CDH構建企業大資料平台系列（十）

CM CDH構建企業大資料平台系列（十一）

CM CDH構建企業大資料平台系列（十五）

Kylin構建企業大資料分析平台的4種部署方式

CM CDH構建企業大資料平台系列（十）

CM CDH構建企業大資料平台系列（十一）

CM CDH構建企業大資料平台系列（十五）

相關推薦