備份專題 備份軟體分布式索引架構

2021-07-22 16:26:11 字數 2428 閱讀 1964



ict架構師技術交流

在備份軟體中,資料索引是備份軟體有效管理、恢復、檢索資料的基礎,隨著備份資料量和檔案數增大,資料備份時會產生巨大的索引。在傳統集中式索引方式中,索引資料庫存放在備份管理伺服器上,每條索引資訊的讀寫都要通過該管理伺服器,這就使得備份管理伺服器很容易成為整個備份系統的瓶頸,系統的效能及擴充能力會受到極大限制。

另外,每次資料備份、歸檔完以後, 為了保證索引資料的可靠性,還需要單獨對索引進行備份,當索引越來越大時,備份索引的時間比一次正常的備份、歸檔任務還長,極大影響生產系統的執行。當集中式索引一旦整體破壞或丟失,重建非常耗時往往需要很長時間。

simpana採用集中管理的分布式索引技術(二級索引技術),有效的改進了集中索引的缺陷,simpana索引分為資料物件索引,資料內容索引和資料分類索引。其中資料物件索引記錄了備份、歸檔物件(檔案、郵件、vms和資料庫等)屬性,索引記錄多、資料量大。資料內容索引主要用於對備份、歸檔資料進行內容索引,是法規遵從的基礎;資料分類索引主要用於對資料檔案分類,提高資料備份和歸檔效率。

一級索引(彙總索引)由comm server管理維護、儲存、並定時備份到備份介質中,一級索引跟蹤每個介質上的備份任務,相關字段包括:時間,計算機名,任務型別,磁帶編號等;該索引是二級索引的彙總索引,存放在ms sql資料庫中。

二級索引(詳細索引)由media agent管理維護、儲存在乙個關係式資料庫,包含了每個備份任務的詳細資訊,二級索引會在ma磁碟上儲存、快取來提高效能,為了保證資料可靠性,這些索引會和相關的備份資料同時備份到磁帶上。

一級索引基本上是每個備份任務有一條記錄,數量不會很大;在二級索引中,即使乙個備份任務,都有可能有成千上萬條的記錄;例如,備份乙個windows作業系統盤,就有可能有4萬多條記錄,對應4萬多個檔案。

分布式(二級索引)架構也非常適合多分枝站點備份,每個分支站點介質服務上保留本地的二級索引,備份管理伺服器只提供一級索引和集中任務管理。

二級索引由本地介質伺服器維護並週期備份,減少索引資料在廣域網上傳輸,減少網路頻寬資源。

備份和恢復對索引操作

使用者通過simpana建立備份任務和備份策略後,當備份週期觸發備份時,管理伺服器cs將執行備份任務,首先建立一級索引的任務記錄,發命令讓ida掃瞄業務伺服器上的備份資料,生成備份檔案列表,並產生二級索引的主要字段。

接著根據備份檔案列表,啟動資料備份,同時計算每個檔案的備份位置,由media server修改二級索引,將二級索引寫到備份介質中,再次修改相關彙總索引記錄。

在進行資料恢復時,commserver先根據一級索引記錄,找到存放二級索引的磁帶或備份介質,並且計算出索引存放位置,將二級索引資料恢復到介質伺服器的索引快取中。

然後從介質伺服器上的二級索引中,將備份資料列表傳送給管理伺服器,供使用者瀏覽和選擇,使用者可以選擇要恢復的資料或備份集,根據使用者選擇的恢復資料,恢復出對應時間點的備份資料。

資料索引的維護

一級索引在cv系統中,預設就是1個週期備份任務;該任務是每天定時或使用者手動啟動,將commserver伺服器上的元資料(包括一級索引、重刪資料庫,重刪資料庫將在後續文章介紹)自動備份到磁碟和磁帶上。

當元資料或一級索引資料損壞,simpana提供相應gui工具來恢復,整個恢復流程先從備份的近線磁碟上恢復;如果磁碟上備份的元資料也損壞了,那麼就必須從離線磁帶備份副本上恢復到磁碟上,再恢復到simpana commserver中。

二級索引在simpana備份資料的時候,就和備份資料一起寫入該備份任務的備份資料集合中進行保護,當磁碟索引損壞的時候,simpana能夠根據一級索引的記錄,找到該任務二級索引的存放位置,自動的把它恢復到介質伺服器的磁碟中。

分布式專題 分布式鎖

在傳統的單體應用架構中,遇到併發安全性問題時我們可以通過同步鎖synchronized,同步 塊,reentrantlock等方式都可以解決,但隨著業務的發展,單體應用架構不能滿足龐大的使用者請求量,於是分布式系統應用而生,在分布式系統中,由於每個系統都執行在不同的伺服器上,有著不同的jvm,所以j...

python分布式架構 分布式架構

1.分布式架構 採用centos mongodb windows2012 python redis進行分布式架構搭建,mongodb的框架最核心的設計就是 mongodb和mapreduce。mongodb為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算,windows2012作為...

分布式架構

cap原理 c 一致性 多節點資料的一致 a 可用性 保證服務持續可用 多節點 多型伺服器 p 分割槽容忍性 是否可將資料存到多個地方 設計不可能同時滿足cap ac 放棄分割槽容忍,物理資料庫 ap 可以短暫的容忍資料不一致 nosql資料庫 cp 放棄可用性 springcloud有一下功能 e...