使用基於
linux
的檔案系統進行重複資料刪除
anantha krishnan pta
二月15
重複資料刪除是一種專用技術,用於壓縮資料和刪除重複資料的副本。它在當今快速生成大量資料的世界中起著重要作用,因為它有助於節省資源,能源和成本。本文介紹了基於
linux
的檔案系統
lessfs
如何用於重複資料刪除。
在不同位置存在相同檔案的副本會造成各種管理問題。涉及簡單儲存系統的主要問題之一是資料複製。大多數系統中的儲存空間可用性被相同檔案的副本耗盡。例如,當從不同的聊天室接收或**給不同的人時,
應用程式會儲存同一影象的不同副本。這樣可以減少裝置上的可用空間。這就是重複資料刪除的地方。
重複資料刪除是一種資料壓縮技術,用於消除冗餘資料並減少已啟用的儲存卷上的已用空間。卷可以指磁碟裝置,分割槽或一組磁碟裝置集
-都表示為單個裝置。在此過程中,將刪除冗餘資料,並將資料的單個副本儲存在儲存卷上。
重複資料刪除的必要性和優點
重複資料刪除的主要重點是指出相同的大資料部分(可以包括整個檔案或大檔案部分),並且僅儲存該資料的乙個副本。其他好處包括:
資料重複資料刪除有兩種型別:後處理重複資料刪除和內聯重複資料刪除。
處理後重複資料刪除:在此方法中,重複資料刪除過程在儲存資料之後開始。儲存檔案後,程式將檢查整個檔案系統中是否存在重複資料,並確保僅存在乙個副本。當可用空間已經很小時並且在執行重複資料刪除過程之前不允許儲存檔案的多個副本時,此方法會出現問題。另一方面,此方法不會影響儲存過程的速度或效能。
內聯重複資料刪除:在這種方法中,重複資料刪除是實時執行的。因此,需要較少的儲存空間。但是,由於重複資料刪除過程隨資料進入而執行,因此會影響儲存速度,因為會檢查傳入的資料以識別冗餘副本。
linux中的重複資料刪除
linux
中的重複資料刪除負擔得起,並且所需的硬體更少。在某些情況下,該解決方案在塊級別可用,並且只能與資料塊的冗餘資料流(而不是單個檔案)一起使用,因為邏輯無法通過許多協議(例如
scsi
,sas
光纖通道和甚至
sata。
我們在這裡討論的檔案系統是
lessfs-
塊級重複資料刪除和啟用
fuse
的linux
檔案系統。
fuse
是在類似
unix
的作業系統上看到的核心模組,它使使用者無需觸控核心**即可建立自己的檔案系統。為了使用這些檔案系統,必須在系統上安裝
fuse
。大多數作業系統(如
ubuntu
和fedora
)都已預先安裝了支援
ntfs-3g
檔案系統的模組。
關於lessfs和permabit(最近被red hat收購)
lessfs
是為linux
編寫的高效能內聯重複資料刪除檔案系統。它還支援
lzo,
quicklz
和bzip
壓縮。
雖然lessfs
是開源的,但
permabit
提供的解決方案直到最近被
red hat
收購才可用。
albeiro
是開源塊級重複資料刪除軟體,由
permabit
於2010
年推出,可作為
sdk使用。
lessfs詳細
lessfs
旨在通過僅儲存乙個塊並使用指向原始塊的指標進行複製來減少檔案系統塊相同的磁碟使用。這種儲存方法在企業解決方案中變得越來越流行,特別是用於減少磁碟備份和最大程度地減少虛擬機器儲存。
它首先使用
lzo或
quicklz
壓縮來壓縮塊,並結合使用這些方法,從而獲得更高的壓縮率。
設定和安裝
首先,確保所有要求都已安裝。這些是: 轉到
mhash /*
$ tar xvzf mhash-0.x.x.x.tar.gz
$ cd mhash-0.9.9.9/
$ ./configure
$ make
$ sudo make install
*/東京內閣是
lessfs
依賴的主要資料庫。要構建
tokyo cabinet
,您需要已經安裝了
zlib1g-dev
和libbz2-dev。
從fuse
。現在,從
lessfs 。
在開始使用
lessfs
之前,我們需要做一些事情。轉到
lessfs
源目錄中的
/ etc
子目錄。將在那裡找到的
lessfs
配置檔案複製到系統的
/ etc
子目錄中。
sudo cp etc/lessfs.cfg /etc/
有關文件,請參閱
sourceforge lessfs
頁面,該頁面寫得很好,任何使用者都可以理解。
記過
即使在大檔案和小空間的情況下,
lessfs
提供了快速的壓縮和重複資料刪除功能,但在其他情況下,事實證明它的速度很慢。而且,儘管從理論上令人印象深刻,但它提供的資料安全性已被證明不如
ibm的
protectier
或sepaton
的deltastor
提供的解決方案有效。
linux 檔案系統 Linux 檔案系統結構介紹
ubuntu 像所有類unix系統一樣 在分層樹中組織檔案,其中的關係就像父母和孩子一樣。目錄可以包含其他目錄以及常規檔案,它們是樹的 葉子 樹的任何元素都可以通過路徑名引用 絕對路徑以字元 標識根目錄,其中包含所有其他目錄和檔案 開頭,然後列出必須遍歷以到達該元素的每個子目錄,每個子目錄用 符號分...
檔案系統編譯進核心
1 利用busybox製作根檔案目錄。需要有init 和 linuxrc 2 makemenuconfig 在general setup 中設定 initial ram filesystem and ram disk 後指定檔案系統原始檔路徑.3 makemenuconfig 在boot optio...
initramfs 檔案系統打包進核心
把initramfs編譯到核心裡面去 使用initramfs最簡單的方式,莫過於用已經做好的cpio.gz把kernel裡面那個空的給換掉。這是2.6 kernel天生支援的,所以,你不用做什麼特殊的設定。kernel的config option裡面有一項config initramfs sourc...