bloomberg開發團隊採納sre實踐後,乙個顯著成果體現為監控系統的改進。該系統的後台由團隊部署的metrictank時序資料庫提供支援。
\\ bloomberg的基礎設施橫跨兩個自運營資料中心中的近200個計算節點,服務於約32.5萬名客戶,以及乙個近5000人的開發團隊。長期以來,開發人員負責對自己構建和部署的產品進行生產監控。這種監控往往是亡羊補牢之舉,進而導致缺失標準化。監控系統中存在有多種資料採集器,它們會對同一度量做重複的測量,對系統的整體也缺乏乙個完整檢視。據bloomberg遙測負責人stig sorensen介紹,運維負責「從企業商業站點的細枝末節以及各種市場資料**,到企業的要產品,即bloomberg專業終端(professional terminal)。該終端是世界範圍內成千上萬關鍵影響人士所仰仗的工具」。各種不同的技術棧構成了系統的複雜性。
\\ sorensen自2023年開始在bloomberg負責sre(站點可靠性工程,site reliability engineering)的實施。他的團隊推行sre原則和實踐,目標是為整個企業構建監控和報警服務。團隊首先推出了一種支援標籤的自研statsd**。該**關注的是如何盡快從中心系統獲取度量。一旦完成了度量採集,系統基於kafka集群完成大量的驗證、聚合、規則和持久化工作。這一系統很快就面對著可擴充套件性的問題。bloomberg軟體開發人員sean hanson在一次演講中指出:
\\
\\\系統執行兩年後,每秒需處理250萬個資料點、1億個時間序列。其中一些高基數度量的值可達50萬。我們的初始解決方案的確具有很好的可擴充套件性,能夠擴充套件到每秒處理2000萬個資料點。但在系統達到這樣處理能力時,事實上我們無法從中做任何查詢,並且系統在處理高基數度量時表現依然很差。高基數度量十分常見的情況。
\
團隊構建的新系統同樣面對著一系列新的需求,包括推導度量計算的函式、可配置的保留期、元資料的查詢以及可擴充套件性。metrictank是cassandra推出的一種多租戶時序資料庫。它支援graphite監控系統,適合團隊的大部分需求。根據facebook發表的gorilla**,metrictank的效能可比facebook前期採用的高基數資料系統高出數個數量級。這為跨組織的度量分析鋪平了道路。bloomberg團隊對其中一些資源敏感區域做了優化,並貢獻到metritank**中。其它一些組織也已使用cassandra作為後端,實現對graphite監控系統的擴充套件。
\\ bloomberg團隊不僅更新了監控系統,而且為實現工作方式標準化而採納了sre。sorensen詳細解釋道:
\\
\\\當前,我們事實上不再具有乙個集中的sre團隊,實現為sre團隊向應用團隊看齊的方式。 sre團隊來自於應用團隊和核心基礎設施團隊。無論是運維人員還是系統管理員,都採用了這種方式做程式設計和人員變動。我們也會讓應用工程師對系統和可用性提出更積極的看法,構建不同型別的軟體,因為我們將sre視為軟體工程師正開展的事情。
\
隨著對標準化監控系統的採納,隨之而來的乙個需求是對如何追蹤進度。團隊正致力於其中的一些工作。sorensen指出,由於「測定可用性不是一件非黑即白的事情。可用性並非使用者在某個**上經歷了多少次失敗,這是因為對於市場玩家而言,而是只要實時市場資料稍有延遲,即便是一毫秒或是幾百毫秒,結果也可能會大相徑庭。」
\\檢視英文原文:bloomberg』s standardization and scaling of its monitoring systems
Bloomberg 的一些基本技巧
首先bloomberg的面板一般分為三個部分 command line 和function area。如果第一次使用bloomberg 可以在command line 中輸入help。會介紹如何get start with bloomberg。進行搜尋的時候有兩種方式,乙個在command line...
Spark的監控系統
常用的spark監控系統有,web ui和spark的history server 一,web介面 1,介面的基本介紹 每乙個spark應用程式都會啟動乙個spark ui,預設埠是4040埠,用於展示對應用程式有用的資訊。包括以下資訊 1 stages和tasks列表。2 rdd大小的總概和記憶體...
機房監控系統
機房監控系統 本系統採用了winfx3.0中的wpf技術,突破原有的視覺展現瓶頸,重構出了視覺效果極佳的it運維管理場景,給維護人員提供了一種直觀 全方位的裝置監控環境,能夠快速準確的發現 定位裝置 本系統採用了winfx3.0中的wpf技術,突破原有的視覺展現瓶頸,重構出了視覺效果極佳的it運維管...