自學大資料系列 第一章 初識Hadoop

2021-08-20 21:24:39 字數 691 閱讀 6686

1、資料現狀

2023年數字世界(digital universe)專案統計得出全球資料總量為0.18zb,2023年將達到1.8zb

(1zb = 1 000eb = 1 000 000pb = 1 000 000 000tb)資料增長速度也在加快。

2、資料的儲存

資料讀取速度慢:在硬碟容量不斷提公升的同時,資料的讀取速度卻沒有與時俱進,目前資料的讀取速度也僅為100mb/s。

解決辦法:可以把資料存放在多個硬碟中,每個硬碟儲存1% 的資料,讀取資料時,100個job同時執行,時間消耗就大大的縮短。

hadoop採取了並行讀取資料的方法來減少時間,單同時也要解決並行讀寫產生的問題:

1)、硬體故障,hdfs(hadoop distributed file system)要求檔案儲存時一式三份,分別儲存在不同的硬體裝置,當其中乙個硬體發生故障時,會從其他副本中獲取資料。

2)、做資料分析時,很多資料都是相互依賴使用的。hadoop開發出了mapreduce程式設計模式,該模型抽象出這些硬碟上讀取檔案的內容並將其轉化為乙個資料集(由鍵值對組成)的計算。

hadoop提供了可靠的共享儲存和分析系統,hdfs實現資料儲存,mapreduce實現資料的分析和處理。這兩個是hadoop的核心功能。

產生mapreduce的原因是因為硬碟發展的乙個趨勢造成:

1)、傳輸效率的提公升效果遠大於減少定址時間產生的效果

第一章 初識爬蟲

1 爬蟲的定義 可以自動抓取全球資訊網上資訊的指令碼或程式。2 爬蟲可以解決的問題 1 解決冷啟動的問題。2 搜尋引擎的根基。做搜尋引擎,必須使用爬蟲。3 幫助機器學習建立知識圖譜。機器學習最終的是訓練集。訓練集可以靠爬蟲爬去。4 可以製作比較軟體。1 搜尋引擎定義 自動從網際網路蒐集資訊,經過一定...

第一章 初識Docker

什麼是docker?docker基於linux的多項開源技術提供了搞笑 敏捷和輕量級的容器方案,並且支援在多種主流平台上部署。可以說docker為應用的開發和部署提供了 一站式 的解決方案。docker容器虛擬化的優勢?在開發和運維過程中的優勢 更快速的交付和部署。可以快速建立和刪除容器,實現快速跌...

第一章 初識Redis

redis是一種基於鍵值對的nosql資料庫 支援型別包括string hash list set zset bitmaps hyperloglog geo等多種資料結構和演算法組合。redis會將所有資料儲存到記憶體中,所以它的讀寫速度非常快。redis還可以將記憶體的資料利用快照和日誌的形式儲存...