ceph配置引數(一)
ceph配置引數(二)
8、monitor config reference
客戶端在讀寫資料前,都比去和monitor取得聯絡,獲得cluster map,結合crush演算法計算得到物件的位置。
(1)最小配置
生成乙個fsid和monitorde的最小配置,配置字段[mon]或[mon.a],ceph監視器預設監聽6789埠。
(2)初始成員
必須是個奇數,表示乙個初始的最小monitor數,active的monitor達到這個數才能啟動。
(3)資料
monitor儲存資料的路徑,因為monitor也是在節點上的,monitor會做很多fsync()操作,影響osd的工作負載,在0.58以前的版本中,monitor的資料是以檔案形式存放的,可以用ls,cat等命令直接檢視,但是一致性難以保障。之後的版本,資料以key/value的形式存放,並且需要原子性操作,保證一致性,資料儲存路徑不建議改動。
(4)儲存容量
當集群的使用率接近"最大容量"時,monitor會阻止對osd的讀寫請求以避免資料丟失,考慮到多個主機可能同時斷電造成集群容量劇減,這個"最大容量"通常小於實際的集群總容量,配置段位[global]。
(5)monitor間的同步
集群間存在多monitor共同工作時,存在同步的問題,不必每個monitor都active集群才工作,只要達到最小可工作數量就行了,這個數量在mon initial members中規定,所以有可能一些mon在某一時刻不工作,後來恢復正常後狀態就落後了。monitor三種角色:leader,最先獲得最新的cluster map;provider,擁有最新的cluster map,但不是最先獲得的;requester,狀態落後,必須同步後方可工作。
在乙個同步過程中,requester向leader請求同步,leader負責分派同步工作給provider,並告知requester去找provider,這樣做分攤了工作負載。provider以chunk為單位發給requester最新的狀態資料,同步完後,requester告知leader完成,leader恢復乙個ack宣布同步結束。
同步總是在乙個新的monitor加入集群時發生。在執行過程中,cluster map不斷更新,這三個角色也不斷變化,如果provider接受到同步任務但自身狀態落後於leader時,它可以終止同步並告知leader。同步完成後,ceph發出乙個trimming,這個操作大概是修剪多餘的狀態資料,並且這個操作必須在pg狀態是active+clean時進行。
(6)時鐘
不同節點間時鐘應該同步,否則一些超時和時間戳相關的機制將無法正確執行,執行又monitor的節點還需要安裝ntp來同步時鐘。然而ntp 級別的時鐘同步還不夠,即使ntp同步好,ceph也會報出時鐘偏移警告,工作量,網路延遲,配置覆蓋等也會對同步有影響。
(7)客戶端
(8)雜項
9、heartbeat settings
osd靠定期檢查heartbeat來確認相鄰的osd有沒有down,以及在peer過程中檢查錯誤和向monitor匯報自身情況,包括故障發生,pg狀態改變,以及檢查monitor有沒有down。
(1)monitor settings
注:是不是說最大可以標記乙個機架out了?
(2)osd settings
10、網路配置
(1)集群網路配置
配置欄位為[global]
注:建議私有位址和internet還有公共網路部能互通,這個位址用來做osd的心跳檢查,物件的複製和恢復,單獨配置私有位址而不是用公用網路做這些對效能有提公升。
(2)monitor網路配置
配置字段[mon.a]
(3)osd網路配置
配置字段[osd.0]
(4)繫結
(5)tcp
注:ceph預設關閉了tcp的buffering,使得請求不快取立即下發,這樣增加了網路流量,增加了延遲如果你要傳輸大量小檔案,就把這個選項關了吧。
注:乙個客戶端請求另乙個ceph daemon時需要新建立乙個連線,但是又不想關閉現在的連線,現在的連線就不用了,過了這麼多秒後,這個連線被標記為空閒狀態。
ceph配置規範
ceph配置 配置形式 小寫字母,單詞之間通過 連線 啟動選項 mon host monitors列表 mon dns serv name 預設ceph mon,dns伺服器識別monitor位址 mon data osd data mds data mgr data 資料儲存在本地的目錄位址 ke...
Ceph 引數效能調優
網路的各種ceph引數的優化比較多,有些有效果,有些在某些場景下不但達不到預期的效果,反而有相反的效果。很多引數如果不了解其意義,面對不同的應用場景就顯得無所適從,所以有必要簡單的了解一下相關的原理。圖1 osd 寫請求的流程 如圖1 所示 一次寫操作的最大的size,也就是fio測試的到時候一次寫...
Ceph記憶體配置推薦
mon mgr節點 一般情況下,記憶體越多越好。不太大的集群 理解為小於300osd mon mgr節點64g記憶體即可。超過300osd的集群,mon mgr推薦配置128g記憶體。osd每個bluestore的osd預設記憶體大小為4g,如果希望遷移 重構速度更寬,建議每個osd配置8g記憶體。...