從傳統運維到雲運維演進歷程之軟體定義儲存(二)

2021-09-04 08:04:11 字數 2220 閱讀 3528

上回書說到一般企業使用ceph會經歷幾個關卡:硬體選型 —— 部署調優—— 效能測試  架構災備設計 —— 部分業務上線測試 —— 執行維護(故障處理、預案演練等)。

今天來重點講下部署調優關卡。許多ceph新手在測試環節以及預生產的時候會對ceph集群的部署以及調優產生困擾,a公司運維小哥也遇到了部署和調優問題。下面來看看a公司運維小哥是如何解決這個問題的。

上篇文章開頭我也說到了,部署ceph是新手的噩夢,對於傳統運維來說部署一套ceph是很難的事情,a公司運維小哥在官網以及ceph中國社群的相關資料和幫助下才漸漸熟悉了什麼是ceph、它能做什麼。在相關了解ceph之後,a公司運維小哥開始部署ceph。

下面說下部署過程,以及部署過程中的一些坑。

部署過程(按照官網步驟開始一步步做)

1. 安裝linux作業系統;

2. 配置系統ip,配置hosts檔案,關閉防火牆和selinux,配置節點間免密訪問;

3. 配置ceph源;

4. 安裝ceph;

在部署的過程中,經歷了三戰三敗的過程:

第一回合:網路問題

圖1:網路問題

第二回合:磁碟問題

解決了網路問題又迎來了磁碟分割槽的問題,運維小哥折騰了半天沒弄好,後來在ceph中國社群群友的幫助下解決了此事。遇到這種情況一般有兩種原因:

一:磁碟提前分好區了

二:磁碟已掛載

解決辦法:

一:刪除分割槽

二:解除安裝硬碟&刪除分割槽

圖2:磁碟問題

第三回合:時間問題

搭建了好久終於搭建完了,但是又面臨著乙個問題,就是osd服務程序在,但是ceph osd tree檢視osd卻顯示down狀態,讓運維小哥百思不得其解。

圖3:osd節點圖

圖4:osd程序圖

從上圖可以看出,ceph osd程序在執行,但是ceph osd tree檢視osd卻顯示down狀態。

而此時就是考驗乙個運維人員的處理故障的基本素質,好在這個運維小哥有過一兩年的經驗,經過基本排查,最終確定了是時間問題。由於三個節點時間不一致而導致的這個問題,這裡稱之為「osd打擺子」。不只是時間問題會導致「osd打擺子」問題,有時候也會因為網絡卡問題而導致「osd打擺子」。

圖5:ceph節點1

圖6:ceph節點2

圖7:ceph節點3

其實在開始部署ceph的環境準備環節就說到了要配置ntp伺服器,然而大部分人容易忽略。其實在任何時候時間問題是排在第一位的,下面舉兩個例子說明下因為時間問題而產生的一些問題。

1.某雲平台由於時間問題,導致雲主機建立不了、宕機等問題。

2.某分布式檔案儲存由於時間問題,導致資料分布不均衡、腦裂等問題。

上述說的節點時間問題導致osd出現「打擺子」故障,因為時間而產生的問題遠不止於此,雖然可以部署成功,但是後續也會產生一系列莫名其妙的問題,如mon選舉問題,osd資料同步的問題等等。

所以雲平台也好儲存也好,都會因為時間而產生不必要的故障問題,建議運維人員要注重時間問題。

圖8:ceph集群

好了言歸正傳,上圖是運維小哥新搭建好的集群。三節點、六個osd的ceph小集群。希望本文能夠給予ceph新手參考,請讀者見仁見智,預知後事如何,請期待《部署調優關卡之調優》。

從傳統運維到雲運維演進歷程之軟體定義儲存(五)下

上篇文章講到了ceph在災備方面有三大神兵利器 故障域 rbd異地災備 rgw異地災備。那麼本文講述下剩下的兩大利器rbd異地災備和rgw異地災備 ceph rbd異地災備術語叫做ceph rbd mirroring,在ceph jewel版本中宣布可用。在此之前ceph塊儲存解決方案 俗稱rbd ...

雲計算運維

雲計算運維預習第三天 今天是我第一寫部落格,心裡還有很忐忑的,害怕別人看更害怕別人不看,在部落格裡也溜了幾個月,裡面的大神真的好多啊,好厲害,希望有大神能夠指點一二,能力相當的交流切磋。這個購買阿里雲好像還真的沒有什麼說的,現在就記住按量付費or包年包月,好像都還挺貴的,就華北的便宜一點,還有就是雲...

雲計算運維思考

雖然離開h公司公有雲運維崗位有一段時間了,但仍然在斷斷續續思考公有雲該如何做才能運維好,最近順手翻起 google sre運維之道 思考再三,對雲計算的本質和運維做乙個簡單總結。雲計算的本質是將計算機的基礎能力 硬體能力,軟體能力 以便捷的方式提供給需要的個人或組織使用,是一種能力和資源的使用方式。...