「重複資料刪除」技術的十大問題

2021-08-24 22:41:10 字數 2199 閱讀 2992

1,到底什麼是「重複資料刪除(deduplication)」技術

簡單地說,就是在通過網路傳輸或儲存資料時,不傳送或儲存多份相同 資料,以減少對網路頻寬和儲存空間的占用。實際上以前的sis(單例項儲存)就是一種dedu技術,但是它去重的單位是檔案。現在流行的 deduplication技術通過是以資料塊為單位的,去重效果會更好,實現起來複雜程度也更高一些。這些技術用在資料備份領域效果最好,因為多次全備 份產生的資料中包含大量的重複資料。增量備份可以在一定程度上減少重複備份,但是它的單位是檔案,顆粒度不好,而且長期採用增量備份也不實際,因為還原時 會非常複雜。如果通過合成備份來解決這一問題,合成作業又會產生額外的開銷。

2,去重技術如何應用於備份或資料複製

去 重技術主要應用於在低頻寬的情況下實施資料備份,複製。例如分支機構的資料保護和窄帶容災。原理基本相同,在傳送乙個檔案之前,會先計算該檔案的指紋,如 果與之前傳送過的檔案相同,則只傳送檔案屬性和指標,不傳送實際的資料。如果檔案指紋與之前傳送過的檔案不同,則將檔案拆分為更小的資料段,對每個段做指 紋,重複的段只傳送指標。由此可見,實際傳送的資料量決定於備份或複製間隔內所產生的資料變化量。

3,去重適用於什麼型別的資料,不適用於什麼型別的資料?

去重適用於任何型別的資料,比如辦公文件,資料庫,多**檔案,虛擬機器等。雖然有些資料由於其自身的特點決定,第一次備份時去重效果不是特別明顯,但是在後續的備份中,去重技術的優勢就顯現出來了。備份的次數越多,間隔越短,重複資料刪除比就越高。

4,怎麼才能知道去重技術對我的資料是否有效?

去重效果主要決定於以下幾個方面:a,有多少資料改變,資料變化量越少,去重效果越明顯;b,資料是否可以被有效壓縮,壓縮技術通常與去重技術一起使用,壓 縮率高的資料,即使去重率不高,通過壓縮,也可以明顯在節省頻寬和儲存;c,你所採用的備份方式(全備,差備,增備),對全備最明顯,對增備也同樣有效, 例如,乙個50m的檔案,只有乙個128k的資料塊發生了變化,增量備份要備整個50m檔案,去重技術則只備份變化的資料塊;d,資料要保留多久,資料保 留週期越長,去重技術的優勢越突出,因為它可以極大地節省你的儲存空間。

5,去重技術到底有什麼益處?

前面介紹過了,可以節省你的儲存空間和網路寬頻。這樣你就可以通過高速磁碟儲存保留更多的備份資料了,將更多的備份資料儲存於有限的磁碟空間,減少對磁帶的使用,節省成本,也提高了恢復資料時的效率。節省頻寬這一優勢可用於分支機構的資料保護和實現低成本的窄帶資料容災。

6,什麼是定長塊去重,什麼是可變長塊去重?

數 據的變化是沒有規律的,如果採用定長的資料塊,則不管資料變化量是多少,也不管發生資料變化的位元位在資料塊的什麼位置,都要備份整個資料塊。這樣分塊大 時,傳輸的資料量較大,資料塊小時,管理資訊會有較大的增加。採用可變長塊可以有效解決上述問題,去重的效果會比定長塊方案要好,但是,變長塊也同樣增加 了資料管理的複雜度。

7,採用去重技術來儲存和備份資料,安全性如何?會不會出現不能恢復的情況?

去重技術是成熟技 術,非常安全,十個相同檔案,採用去重技術儲存,資料只會保留乙份,但是這十個檔案的屬性會分別儲存,並有指標指向與它們對應的資料塊。去重技術採用檔案 或資料塊的指紋(md5,sha或crc等)來判斷重複性,可能會產生「碰撞」,也就是不同的檔案或資料塊計算出相同的指紋,從而導致資料丟失。但是這種 可能性非常小,而且成熟產品會採用多種指紋技術來進一步降低「碰撞」的可能。

8,什麼是前去重,什麼是後去重?

前去 重是指我們用備份伺服器備份某一台計算機上的資料時,去重的操作發生在被保護的計算機上,這樣的話,從該計算機到備份伺服器之間也不會有重複資料出現,節 省這一段網路頻寬,但是會增加被保護計算機的負擔。後去重則是資料傳送到備份伺服器之後再刪除掉重複資料,可以儲存在磁碟上,也可以進一步通過網路傳遞。 這樣方案不會增加被保護主機的負擔。通常對於大一點兒的站點,我們會採用這種方案,把去重的任務交由該站點內的專用伺服器來完成。

9,去重技術支援備份到磁帶嗎?

磁 帶不支援隨機訪問,所以在磁帶上實現去重技術難度較大,且效率不高,磁帶相對於磁碟來說,成本也較低。所以目前的去重解決方案主要是應用於磁碟儲存。如果 用備份軟體將磁碟上的去重資料複製到磁帶上時,被去重的資料往往被還原為非去重狀態。這樣也可以在一定程度上降低去重為資料的可用性所帶來的風險(重複數 據只儲存乙份,這就意味著,這乙份資料受損,將導致一組檔案無法正常使用)。

10,實現去重方案要花多少錢?

目前提供這一方案的廠家很多,相關解決方案的**會有一些差別。總的來講,在這一部分的投入,很快會通過對網路頻寬和儲存空間的節省而得到回報。所以目前這一技術是主流的資料保護技術,比較受使用者歡迎。特別是那些資料量較大的使用者。

SQL Server 十大問題

在sql server開發問題中你可能會問到的十個問題 1 什麼是常見的對錶和字段的名字約束?2 有沒有可能在不了解t sql的情況下編寫儲存過程 3 t sql 中如何比較clr 儲存過程和函式的效能?4 我如何在乙個儲存過程中使用另乙個儲存過程產生的結果?5 我如何解決sql server 20...

Kali Linux常見十大問題

1 kali linux的映象選取 目前大部分機型的計算機為64位,所以建議使用amd64映象,位址為 2 kali linux使用無線網絡卡 目前360wifi第二代支援,不是破解網絡卡 3 kali linux支援破解無線網的網絡卡 型號 3070 8187 4 kali linux如何裝虛擬機...

面試中的十大問題

面試時,有幾個問題是公司面試人員常常會提出的,針對這些問題好好準備,在面試時也就不會啞口無言,無言以對了,下面就面試十大必考題做出分析 1 為什麼想進本公司?這通常是面試官最先問到的問題。此時面試官就開始評斷錄用與否了,建議大家先判斷自己去應徵的工作性質,是專業能力導向呢,或是需要溝通能力,其實現在...