乙個分布式實時系統集群動輒上百臺機器,集群的規模已經限定這將是乙個」封閉「的系統。你不可能再一台台去操作上百臺機器,傳統的人工運維方式早已不能滿足當下需要,所有對集群或者集群中某個節點的操作都必需通過系統提供介面來完成。對於乙個商用的分布式實時系統來說,如何應對突然出現的業務高峰;及時檢測出集群中的故障節點並進行善後處理;對於集群內處理能力不同的節點進行負載均衡調節;系統因過大壓力崩潰前進行過載保護;測試容器與運營容器同網測試的灰度發布能力等等。這些都是系統管理模組需要去解決的問題,也是乙個系統能否商用,足夠智慧型的關鍵指標。
系統管理模組分為服務(smartservice)和管理(smartmanger)兩部分。smartservice基於restful的介面,來對外提供各類對集群的查詢和操作介面,可以方便和各類管理終端(pc、ios、android)對接,實現介面管理。完善的框架還提供輕鬆的二次開發介面,方便定製系統專屬介面。如:調整日誌級別、單號碼日誌跟蹤、集群配置管理、集群實時拓撲資料查詢等等。幾百台機器的集群,人工維護已不再現實,自動檢測和自主運維已成為關鍵,smartmanger的自動負載管理功能就是用來完成這部分功能的。另外,系統管理模組是與狀態中心、通訊平台相互配合工作的,三者缺一不可。
下面將詳細介紹各個特色功能:
根據業務容器節點為上報的時延、型別、流量等資訊,綜合集群所有節點的資訊,判斷集群目前是否存在如下情況,並根據情況做出相應的應對動作。
1. 某個容器存在故障,不能正常處理業務——故障節點退網
2. 某個容器處理能力不足,存在業務處理超時情況——對節點流量控制
3. 某類容器處理能力不足,這類容器存在業務處理超時情況——對這類容器進行擴容器操作
4. 某類容器處理能力富餘,這類容器的流量滿足縮容條件——對這類容器進行縮容操作
5. 集群處理能力已達極限,可能出現系統崩潰的狀況——對集群進行過載保護
在業務節點遇到不可恢復的故障不再能正常處理業務,系統管理模組將自動檢出,並將故障節點退出業務集群,以保證集群正常執行。
當某個節點處理能力不足時,如這個節點在做日誌跟蹤時,系統管理模組可以根據節點處理能力減少發往該節點的訊息數,做實時負載均衡。
當整個集群的處理能力已經達到極限時(不能再進行擴容操作),為了防止系統崩潰,可以根據業務的情況進行過載保護,如:對初始鑑權請求進行丟棄處理。
系統支援灰度發布能力,可以讓測試點節和正常業務節點同網執行,將讓測試號碼路由到測試節點進行處理,而不影響其它正常的號碼。
未完待續...
C 分布式實時應用框架 系統管理模組
乙個分布式實時系統集群動輒上百臺機器,集群的規模已經限定這將是乙個 封閉 的系統。你不可能再一台台去操作上百臺機器,傳統的人工運維方式早已不能滿足當下需要,所有對集群或者集群中某個節點的操作都必需通過系統提供介面來完成。對於乙個商用的分布式實時系統來說,如何應對突然出現的業務高峰 及時檢測出集群中的...
分布式實時同步系統
databus是乙個實時的 可靠的 支援事務的 保持一致性的資料變更抓取系統。2011年在linkedin正式進入生產系統,2013年開源。網際網路技術棧 2018 01 22 19 28 55 社群wiki主頁 乙個大型分布式系統往往存在多種的儲存系統,mysql,tair,redis,memca...
分布式實時計算系統
reference 1 批處理在大資料世界有著悠久的歷史。批處理主要操作大容量靜態資料集,並在計算過程完成後返回結果。批處理模式中使用的資料集通常符合下列特徵 批處理非常適合需要訪問全套記錄才能完成的計算工作。例如在計算總數和平均數時,必須將資料集作為乙個整體加以處理,而不能將其視作多條記錄的集合。...