大資料Hadoop的整體理解

大資料一直是在討論兩個問題：資料儲存與資料計算。

如何將得到的資料儲存起來與如何對得到的資料進行計算輸出結果

以前實現大資料的做法

（存貯）我們首先需要乙個資料來源，可以是日誌也可以是資料庫等等。然後我們對資料進行抽取、轉化、載入三個過程，將得到的資料存貯在資料庫中。

（計算）那麼接下來，我們可以使用jdbc或sql語句，對這些資料進行篩選、計算等操作。我們這時會得到乙個結果，這個結果可以儲存在mysql資料庫中，當然，其他的資料庫也是可以的。

hadoop的實現框架原理是和上面類似的，其實，hadoop就是乙個框架，更好的將上面的模組整合到了一起。

hadoop承擔資料儲存的模組是hdfs（分布式檔案系統）

hadoop承擔計算是mapreduce模組

這兩個模組對應的功能上面中可以清晰的看到，並且下面我們將重點介紹這兩個模組。

想要徹底理解這一塊的內容，就要理解下面這個圖。

首先，大資料本身涉及到乙個龐大的技術體系，從學科的角度來看，涉及到數學統計學和計算機三大學科，同時還涉及到社會學經濟學醫學等學科，所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看，大資料領域涉及到資料採集資料儲存資料分析和資料應用等環節，不同的環節需要採用不同的技術，但是這...