黑色八月 宕機事件盤點

2021-06-19 02:30:05 字數 3301 閱讀 6450

關鍵字:宕機

amazon

google微軟

一、8月宕機的那些日子:

1.amazon兩次宕機損失近700萬美元

8月可謂是amazon最為悲劇的一月,在8月19日和8月26日發生兩次宕機。據推測兩次宕機致使amazon損失了約700萬美元。

美國東部時間8月19日下午2點45分開始,有使用者率先發現了amazon**出現宕機,大約在20多分鐘後又恢復正常。此次宕機讓amazon損失近200萬美元。

在此期間,消費者無法通過amazon.com、amazon移動端以及amazon.ca等**進行購物。

此 外,禍不單行amazon北維吉尼亞資料中心在8月26日再一次宕機。據悉,這次的宕機源於網路故障,並持續從美國時間25日下午12時51持續直到下午 1時42分。截至下午3時23分,aws報告說,受影響最大的elastic compute cloud服務已經重新啟動和執行。

作為世界最大最著名的雲計算服務**商——aws, 很難數清楚有多少的使用者因aws的宕機而受到影響, instagram 月活躍使用者數超 1.3 億,vine 使用者數超 4000 萬,flipboard 使用者數超 7500 萬,租房** airbnb 使用者數超 400 萬。不考慮對其它影響**,僅僅這四家**宕機就會影響了數億使用者。

據《普吉特海灣商業雜誌》(puget sound business journal)估計,若按照亞馬遜的每分鐘平均銷售額11.7882萬美元計算,宕機40分鐘,亞馬遜可能損失了近500萬美元的銷售額。

2.蘋果iclould宕機300萬使用者受影響

美國太平洋時間2023年8月21日21點30分左右,從蘋果的服務狀態網頁的資訊來看,imessage、photo stream、documents in the cloud、backup and restore和iphoto journals等服務都處於無法訪問的狀態。另外有大約17%的itunes使用者在乙個小時時間內無法進行購買操作。

服務狀態網頁稱,此次宕機事故而受到影響的使用者接近300萬人,不到使用者總量的1%。

蘋果並沒有對周四的宕機給出任何的解釋,而且也沒有證據表明蘋果的服務遭到惡意攻擊。據據業內人士分析此次蘋果宕機可能是因為軟體錯誤或裝置的功能缺陷導致。

此外,在8月28日上午,蘋果itunes store再次宕機近3個半小時,造成20%使用者無法購買**內容。蘋果系統狀態網頁顯示,該次宕機事故是從太平洋時間早上6:00開始,一直持續到上午9:26,影響到了20%的使用者,目前尚不清楚這次宕機原因。 

3.谷歌全面宕機,5分鐘全球流量下降40%

在網際網路領域,恐怕沒有哪家企業像google這樣能如此深入而廣泛地影響全球使用者。可以說, 「google打個噴嚏,全球網際網路都要感冒」。市場研究公司gosquared稱,google在5分鐘的時間裡就讓全球的網路流量下降了40%。

按照谷歌公布的今年第二季度營收141億美元的財務情況來推算,此次宕機事件將對谷歌造成約55萬美元的損失。

目前,谷歌已經重新恢復了所有服務的正常執行,但仍未出面解釋造成此次宕機事故的具體原因。

但是令人驚奇的是,谷歌在8月17日的宕機作為乙個維護問題的負面新聞卻由於谷歌的應急機制的成功而轉變成正面新聞。谷歌的宕機讓人們見識了什麼是集群伺服器,更讓人見識了乙個集群伺服器的恢復僅僅花了11分鐘的時間,這給國內外的網際網路企業帶來巨大的深思和啟發。

4.微軟outlook和skydrive雲儲存等服務遭宕機

2023年8 月14日21點左右,微軟的郵箱服務hotmail、即時通訊服務messenger及雲儲存服務skydrive等在全球範圍內出現了技術故障。15日 1點20分,微軟賬戶、messenger及日曆已恢復正常,但outlook郵箱、社交應用people及skydrive仍然無法使用,直到美國東部 時間8月17日4點30分才基本修復正常。

由於outlook.com的此次宕機導致了一些使用者三天未能使用相關的服務,為此,微軟還發布宣告,向使用者致歉,解釋了此次宕機的原因以及採取了哪些防範措施來防止未來發生類似情況。

以下是微軟道歉宣告(節選):

在此,我們向那些在本週深受outlook.com 宕機影響的使用者致歉。如今我們已經恢復了所有帳戶的服務,使用者可以登入帳戶,並更改設定,以便將來這些服務仍能夠更好的恢復使用。我們認識到我們肩負的責 任——就是讓使用我們服務的使用者能夠與他們最為關注的人士進行交流和分享。我們再次向那些在本週受影響的使用者致歉。

此次事件是由與使用微軟exchange activesync的裝置相連線的緩衝貯存區出現的問題所引起的,……為了恢復整個電子郵件服務,我們暫時關閉了通過exchange activesync進行連線的渠道。這將有助於我們幫助使用者通過網頁方式來恢復使用outlook.com,並恢復skydrive的共享功能。

我們已經從此宕機事件中汲取了一些教訓,我們已經採取了兩大調整措施,來加固我們系統,以防止未來發生類似的情況。其一是,增加系統中受影響部門的網路頻寬,其二是改變了使用exchange activesync裝置處理錯誤的方式。我們將繼續監控系統,並進行其它必要的調整,以此保證服務的穩定。

現在,我們已經恢復了服務,因此所有的使用者都應當能夠正常使用他們裝置上的所有服務。我們在此再次向那些受宕機影響的所有使用者致歉,我們也對使用者在我們解決問題過程中體現出的耐心表示感激。

二、如何規避宕機

宕 機的代價是多大?或許無人知曉確切的答案。不過,從谷歌僅僅宕機5分鐘就損失損失近55萬美元,amazon兩次宕機不到100分鐘內損失近700萬美 元。而且據國外**報道,自從2023年到2023年,13次著名的雲服務宕機導致了568小時的服務中斷,造成了超過7170萬美元的經濟損失。如此巨 大的損失使得企業和機構不斷地尋找避免宕機和減少宕機損失的方法。

ptime institute副會長rick schuknecht表示良好的規劃可以減少宕機發生的機率。從此次google宕機實踐中我們可以得出避免宕機發生的3個注意事項:

1.選擇適合自己的伺服器

如今伺服器產品種類繁多,但是企業選擇伺服器產品不能人云亦云,企業應根據自身的實際情況選擇合適自己的伺服器產品。

2.要做好避免宕機的準備工作

伺服器每天都在執行,企業要加強對伺服器運**況的巡檢、檢修工作,所以企業要選擇乙個有保障的實時監控商。此外企業需準備乙個備用的伺服器,這樣就不用擔心伺服器宕機之後所帶來的巨大影響。

3.制定好宕機之後的修復計畫

既然伺服器出現宕機的可能性隨時存在,為了避免宕機之後手忙腳亂的局面,企業要做好未雨綢繆的準備。在部署伺服器時,企業需要邀請相關it專家進行討論,分析該企業可能出現宕機情況,思考宕機情況出現時的解決策略,制定一套宕機後的修復計畫。

Azure 服務月度更新盤點 八月

八月microsoft azure 在資料加密,人工智慧,雲原生等層面發布了重要更新。國際版azure 8 10 azure database for postgresql for mysql 基礎結構雙加密功能 發布預覽版 基礎結構雙加密使用服務託管金鑰增加了另一層的加密,它使用 fips 140...

逝去的八月

八月,失去了我乙個摯愛的親人 外婆。外婆走了有乙個月了,希望外婆在那邊一切都好。這個月對於老婆來說也是難熬的乙個月,岳父做了個手術,病情也挺讓大家擔心的,手術很順利,希望他早日 也許是這些事情讓我感到了身體的重要,從本月8號 全域性健身日 起,開始跑步,快跑了乙個月了,繼續堅持,讓跑步成為一種習慣,...

八月,開始之路

題外話,又是這種月結式的博文,真沒辦法。先吼一聲,我終於也算是踏入職場的人了。好吧,這話後面滿滿的都是辛酸,尤其還是初來乍到乙個新城市,真的是各種支出和坑。不管怎樣,積極面對,暫時而已了。八月中旬入職,緊接著就是 天的封閉培訓。說實話,這些日子的美好,我已經開始懷念了。從全國各地飛來的各路同學,短短...