當前,數字資訊急劇膨脹。根據idc的研究結果,2023年創造的資訊數量達到1800eb,每年產生的數字資訊量還在以60%的速度高速增長,到2023年,全球每年產生的數字資訊將達到35zb。面對海量資料處理的需求,「大資料」這一新的概念應運而生。關於大資料的定義,目前還沒有標準的說法。
hadoop distributed file system,簡稱hdfs,是乙個分布式檔案系統。hdfs有著高容錯性(fault-tolerent)的特點,並且設計用來部署在低廉的(low-cost)硬體上。而且它提供高吞吐量(high throughput)來訪問應用程式的資料,適合那些有著超大資料集(large data set)的應用程式。hdfs放寬了(relax)posix的要求(requirements)這樣可以實現流的形式訪問(streaming access)檔案系統中的資料。hdfs開始是為開源的apache專案nutch的基礎結構而建立,hdfs是hadoop專案的一部分,而hadoop又是lucene的一部分。
hdfs設計的針對物件主要適合流式訪問的超大檔案、在使用便宜的硬體搭建的集群上執行。hdfs中block的大小預設是64m,小於塊大小的的檔案並不佔據整個塊的全部空間(乙個塊可能存有多個檔案)。
使用blocks的好處:
1) 可以儲存大檔案,乙個檔案的大小可以大於任何乙個單塊硬碟的容量
2) 把儲存單元抽象成塊而不是檔案,簡化了儲存子系統:簡化了資料管理、取消元資料關注
3) 能很好適應資料複製,資料複製保證系統的容錯和可用性。
hdfs提供了兩種namenode的容錯機制:
1) 備份儲存持久化狀態的檔案系統元資料的檔案
2) 提供secondary namenode。secondary的主要角色是合併namespace image和edit log,防止edit log過大。但是secondary namenode的資料較master namenode的資料有所延遲,所有資料恢復以後肯定會有資料丟失。
一般來講,冷資料和老資料經常會被壓縮,塊壓縮相對於檔案壓縮的優勢在於三方面。第一,透明性,客戶端不需要知道壓縮的存在,也不需要知道公升級。第二,靈活性,對實際壓縮的演算法沒有限制。第三,本地性,不需要在跨資料節點的壓縮操作。
提到非同步壓縮時,孫桂林表示,乙個集群能從未壓縮的狀態變成壓縮狀態最多花費十天,如果壓縮的資料很繁瑣,我們可以通過處理器來減輕cpu的負載。
儲存壓縮的機制
datanode資料已經壓縮了,client可能不知道,datanode 在響應client的時候回將資料解壓。
client 和datanode之間可以通過壓縮的機制。整個通訊協議需要一些擴充套件,需要告訴寫方,我們所需要壓縮的檔案格式以及什麼樣的編碼。在寫的操作上,儲存編碼和傳輸編碼不一樣,我們可以選擇是否壓縮儲存和傳輸編碼。在讀的操作上,支援一些協議來進行轉換。
如何處理小檔案
1、 把小檔案變成大檔案(歸檔操作)
2、 把相同目錄下的小檔案合成乙個大檔案。資料塊的大小可以達到乙個數量級,可以做壓縮處理。
不同的集群,壓縮比部太一樣,壓縮比介於10%到50%之間,大部分的集群我們都可以獲取50%以上的空間收益。
未來,我們主推的是後台非同步壓縮,等待cpu空閒的時候,我們才會開始壓縮。壓縮過程和壓縮編碼完全透明,我們可以採用分級壓縮方法。對於冷資料,我們可以使用一些極致的壓縮演算法,盡量來節省空間。通過一些歸檔操作,我們可以節省大量的磁碟空間。
很多時候,我們a模組的輸出資料剛好是b模組的輸入,我們可以提供乙個塊共享的quota calculating ,我們可以通過塊共享的機制使用快速拷貝。
乙個檔案如果存在的時候,對於一些重複的塊檔案該怎麼處理,這將是我們未來的發展方向。
百度大資料遷徙
對比兩年北上廣深四個引擎的人口流動,發現今年是離家很遠的朋友更多的選擇呆在原地不動。流動趨勢整體保持不變 北京的為東北,華北地區為主 上海為華中,華東地區為主 珠三角這是南方的一些省份流動。新疆是個好地方,全國都有新疆同胞,青海的兄弟卻很少流動到其他省。2020年年前沒有官宣新冠病毒,此時的資料有很...
評論 百度的框,百度的誑
最後,我分享乙個故事 有一片魚塘,有很多漁民,一邊養魚,一邊釣魚,旁邊有一家餐館,專門收購釣起來的魚烹製成菜,因其地理位置極佳而吸引了很多 遊人前 來就餐,有一天,這家餐館與最會釣魚的漁民甲達成了專供協議,餐館選單上顯著位置都是漁民甲所提供的魚類菜餚,於是漁民甲開始忙碌 發財,遊人們也很高興 這家餐...
百度 2017茶行業大資料
柴公尺油鹽醬醋茶,茶是中國人開門七件事中唯一一款休閒飲品,茶文化早已滲透進中國人的文化基因中。近日,2017年福建茶行業網際網路發展論壇在福建武夷山舉辦。來自福建南平 福州等超過70家茶商到場,圍繞 網際網路 茶行業 一起坐下來 品茗論道 武夷山大紅袍成最熱門茶種,關注度年增速26 從搜尋內容上看,...