鄭昀 最後更新於2015/1/29
知己知彼,百戰不殆,了解一下過去那幾年我們所經歷過的各種不可抗離奇事件吧。
我們一而再再而三地跌倒在idc機房空調機組腳下,那幾年每年夏天都過得提心吊膽,每次望見漫天楊絮都憂心忡忡。
回顧一下歷史:
2023年5月6日
2023年6月2日
2023年5月18日
idc機房空調機組停機導致的事故,我司每次都是標準處理流程:
1)運維部極速飛車到機房,**啊風扇啊挪機器到外圍區域啊;
2)運維部發函追責;
3)idc機房承認錯誤,做出賠償;
4)運維部發事件報告以及對方公函。
歷史上其他公司的空調殃及池魚事件:
2023年12月26日,12306火車票**因機房空調系統故障而無法訪問。
3.1.上游的硬體問題
2023年6月17日,
1. 20:30分,監控報警提示業務中斷;
2. 20:32分,運維人員和機房值班工程師取得聯絡,確認機房網路出現異常;
3. 20:35分,運維人員趕往機房現場協調處理;
4. 20:40分,通知公司相關部門人員按緊急預案執行;
5. 20:50分,現場工程師和互某通技術人員確認,長話大樓機房核心裝置硬體故障造成網路中斷,備件已到位,正在更換中;
6. 21:00分,將服務切換到攻擊防護ip位址段(因該ip段為單聯通線路,流量出口為機房本地出口,所以該段未受到影響);
7. 21:00分,機房部分流量恢復,表現為聯通運營商使用者可以訪問**,其他運營商無法訪問**;
8. 21:02分,通知公司相關部門人員故障開始恢復;
9. 21:30分,與互某通技術人員聯絡,裝置硬體已經更換完成進行加電;
10. 21:35分,互某通長話機房網路恢復,其他運營商使用者可以訪問**,所有功能恢復。
本次故障為互某通機房長話大樓核心裝置故障造成,暴露出幾個問題:
2. 出現長話大樓機房核心裝置故障時,可以選擇將bgp出口切換到同城某核心機房,但對方未進行此操作。
2023年10月27日,
1. 15:20分,監控報警發現**銷量異常以及**無法正常開啟。
2. 15:23分,運維部開始分配工作檢查故障,排除公司網路、dns解析、外部網路攻擊、機房網路問題等環節,最後判斷是**外網核心交換機可能出現故障。
3. 15:47分,運維部工程師從公司出發到機房現場進行問題排查。
4. 16:05分,運維部工程師到達現場,使用筆記本接入核心交換機,檢視交換機工作狀態,發現有大量報錯,經判斷為核心交換機堆疊出線故障,造成交換機無法正常工作。工程師將交換機堆疊線纜重新安裝,並重啟交換機 。
5. 16:15分,核心交換機完成重啟,故障報錯消失,**開始恢復提供訪問。
dns 出了問題,誰也跑不了,都受影響。
地方電信運營商和流量聯盟都會出手,劫持我們的網域名稱。
2023年10月底,淮安銷售反饋當地訪問我司網域名稱以及商戶後台網域名稱很慢,隨後,運維部發現淮安鐵某通劫持了我司的網域名稱,如下圖所示。
圖3 網域名稱被劫持到另乙個ip上
這種問題只能以消費者身份投訴當地鐵某通客服。
2023年1月23日,長沙城市經理反饋,在網咖上網發現我司、某800等頁面均直接跳轉到美某團。
然後再跳轉到 ,
最後跳轉到美某團
運維部懷疑是億某發聯網旗下的站長聯合網咖出口的管理軟體,對**相關**做了網域名稱劫持。
那個年代,億某發聯盟的成員在各地劫持各大電商流量,十分常見,花樣百出。
被攔截無外乎被人舉報或無意誤殺。
2023年10月23日淮安城市經理反饋,商家發現用金山毒霸防毒時會提示說我司商家後台網域名稱有問題,如下圖所示:
圖4 瀏覽器上的防毒軟體提示
經過研發人員與金山客服聯絡,很快不再攔截,但客服拒絕回答原因。
接下來,我們又發現,商家在電腦桌面上建立有我司商戶後台的快捷方式時,立刻彈出金山毒霸的病毒報警,如下圖所示:
圖6 金山毒霸的彈框提示
再一次聯絡金山客服後,金山客服反饋金山後台已經處理。
金山客服表示,今天處理問題與昨天處理的問題是同乙個問題在兩個不同軟體中的體現,所以需要進行兩次處理。當被問及是否還會出現第三次或者在金山的其他平台出現類似問題時,客服不確定不會出現,只能保證瀏覽器和快捷方式檔案的病毒誤報情況,不會再出現,如果有大量使用者投訴**內容,也可能會再次出現病毒報警。
2023年時,我司掃碼驗碼的終端裝置曾經因為移動運營商攔截 55.com 網域名稱而被迫緊急更換網域名稱並公升級裝置軟體。
當時幾經周折,也不知道是移動運營商哪乙個部門負責此事,打探到有人投訴該網域名稱下有非法內容因此被禁,以至於終端裝置通過sim卡上網無法訪問我司服務。
我司被 ddos 攻擊過,也被同機房的其他公司殃及過。
2023年8月9日,www.ebao**.com 是杭州一家****,估計在8月8日被人ddos攻擊了,所以他們自己把網域名稱指向我司ip(?!),還好運維部及時發現及時處理。
2023年2月13日,我司遭遇 sync flood 攻擊,機房對應網段頻寬被打滿。頭一次在我司主站掛出公告。攻擊時,我司一度把網域名稱指向cdn,讓cdn幫忙扛。
從2023年1月17日下午18點開始,互某通idc機房由於託管使用者觸某科技被 ddos 攻擊造成大網受到影響,網路斷斷續續。
這種現象在1月18、19、20日仍繼續發生,idc機房採取的措施是,一旦發現觸某科技被打,就關閉它的埠,保證其他公司業務不受影響,所以每次都是幾分鐘的波動。
高估了我司的服務效能,無線曾經發了一次批量 push,結果使用者蜂擁而來,洪水而來的請求直接打垮了無線伺服器協議端,各個節點雪崩。無線大頭欲哭無淚。
還有一次,2023年4月24日,有人發微博說專賣店頁面訪問 504(gateway timeout),還有微博說我司商品打不開了。
經查,是無線在公司內網的伺服器在上午9點~12點之間,從cdn大量抓取我司商品。
由於抓取的大量(畢竟是遍歷商品嘛)在 cdn 中沒有快取,導致 cdn 回源取資料的流量增加,變相形成 cdn 伺服器輕量 ddos 我司靜態資源伺服器的情況 。
只好告訴大家在對自家主站資料進行任何大規模(併發)抓取前,先想想後果,不要自己 ddos 自己。
小結一下,寫了這麼多,就是讓大家了解一下線上線下都會面對哪些不可抗因素,做好心理準備。
-the end-
贈圖一枚:
亂是一種什麼體驗?
鄭昀 20180302 最近感覺公司挺亂的。怎麼個亂法兒?恨不能上午在群裡說一句話,下午就要上線。很久以前,我發現管理規模越大,比如上百人的業務開發團隊,越容易進入一種惡性迴圈 他們不是沒有優先順序,但他們的優先順序策略是最後來的事情最優先。為什麼會這樣?大致想來,百人團隊的領導,以及領導的領導,可...
參觀 Google 總部是一種什麼體驗?
終於 io 結束了,三天的 io 體驗非常非常棒,絕對很震撼,不只是技術交流大會,還是一場全球的大 party,如果以後大家有機會,一定要親身參加感受下,此生無憾!今天 io 大會最後一天,你們猜我見到誰了?竟然近距離的圍觀了 android 之神 jake wharton,放張圖給你們看下,速來膜...
年輕 多經歷是一種財富
當我們躊躇猶豫的時候,別人都會說你們還年輕。20多歲的年齡,也正是人生的寶貴時光,我們剛剛退去了那些年的幼稚,但卻沒有男人那份成熟,我們渴望成長,我們渴望進步,我們渴望成功,但是我們依然是年輕的。劉墉有一篇文章就是說年輕就應該去遠行,很是同意他的觀點,我們年輕就應該去遠行,帶著我們那份好奇的心,去探...