今天是愚人節,而我們卻被阿里雲ocs愚,很多地方的快取一直不過期,造成很多頁面中的資料一直不更新。這篇博文將向您分享我們這兩天遇到的ocs問題。
阿里雲ocs(open cache service)是阿里雲提供的開放快取服務,簡單來說就是乙個巨大的memcached。我們是從2023年12月12日開始使用阿里雲ocs的(詳見雲計算之路-阿里雲上:用上了開放快取服務ocs)。ocs是保證**效能的最重要的功臣之一,而隨著**訪問量的快速增長,ocs更加舉足輕重。曾經有乙個週末,我們因為清空了ocs例項快取從而引發web伺服器cpu跑滿(詳見c#正規表示式引發的cpu跑高問題以及解決方法)。
最近我們在優化**以充分發揮ocs快取的作用,盡量在ocs快取中讀取資料(從快取中讀取資料太快了,一般在10ms以內)。上個週末,我們發布了一次更新,準備在周一訪問高峰時觀察一下效果。結果ocs竟然出問題了。
周一早上9:44-09:46期間,我們感覺**訪問速度有一點不對勁,一看web伺服器日誌——大量的快取讀取失敗日誌。向阿里雲提交工單後得知ocs後端有臺機器出了問題,造成讀取快取超時。
周一下午13:16-13:31期間,ocs又出現了早上的狀況,而且ocs管理控制台顯示的監控資料完全不對。繼續向阿里雲提交工單後獲知當時ocs後端在進行緊急公升級,進一步得知今天ocs正在進行商業化前的公升級(4月3日ocs正式對外售賣,之前處於試用階段)。
今天,有園友向我們反饋首頁右側的「最新新聞」列表還是昨天的新聞,我們立即意識到ocs又出問題了。「最新新聞」列表用了ocs快取, 快取時間是5分鐘,正常情況下5分鐘後會自動過期,可現在ocs始終不讓它過期,所以讀取到的始終是舊資料。手工清除這個快取項後,問題解決。
接著又有園友情反饋「首頁候選區」顯示的也是昨天的資料,我們一看也是同樣的ocs問題。我們進一步檢查,發現首頁右側的「48小時閱讀排行」、部分**分類頁面、「所有隨筆」頁面也出現了同樣的ocs快取不過期的問題。後來又有園友反饋,個人部落格「我的隨筆」列表頁面也是同樣的問題。
雖然根據key手工清除對應的快取項,可以解決問題,可是擺著我們前的是乙個無解的難題——怎麼找出那些應該過期而沒有過期的快取項。唯一的解決方法是清空ocs例項快取,這又是乙個不可行的好方法。前面已經提到過,我們在訪問低峰的時候因為清空ocs例項快取而引發web伺服器cpu跑滿,何況今天的訪問高峰期呢。
愚人節被愚,通常是一笑而過;而被阿里雲ocs愚,卻是一臉的無奈——要麼是等到訪問低峰清空ocs例項快取,等待下一次被愚;要麼等待阿里雲幫我們真正地解決這個問題。
slb(負載均衡)+ecs(虛擬機器)+rds(資料庫)+ocs(快取)這是iaas服務的4個支柱,而我們卻被這4根柱子都撞過。希望我們撞出的不是爛木頭,而是鋼筋混凝土。
雲計算之路 阿里雲上 烏雲飄過
一周的萬里無雲是我們的第乙個目標,這周天氣情況好轉,但昨天 今天下午依然有烏雲飄過。昨天下午16 40 16 48左右,部落格站點的兩台web伺服器突然出現cpu坐過山車的波動情況。今天下午14 26 14 32左右再次出現cpu坐過山車的波動情況,之後又出現了幾次短時間的波動。這兩朵烏雲飄過時,都...
雲計算之路 阿里雲上 在烏雲中堅信藍天
繼續向大家匯報阿里雲上的天氣變化情況。今天 5月8日 上午糟糕的天氣 8 30 9 50,10 50 11 40 給大家逛園帶來了很大的麻煩,請諒解!早上8 30左右由於阿里雲rds出現突發故障 故障是rds負載均衡引起的 造成 不能正常訪問,訪問時出現了錯誤。8 45左右rds恢復正常,但由於rd...
雲計算之路 看樓盤 參觀阿里雲機房
對於乙個 來說,搬到雲伺服器上,就如同喬遷新房,選房是很重要的環節。在選房的階段,我們就想,如果能像購房那樣,去看看 樓盤 那該多好啊。真沒想到,竟然真有這樣的機會 12月19日,我們去杭州參觀了阿里雲的機房,看到了雲伺服器背後真實的伺服器。知道了在 騰雲駕霧 的時候,腳下不是空氣,而是堅實的 地板...