大資料一直是在討論兩個問題:資料儲存與資料計算。
如何將得到的資料儲存起來與如何對得到的資料進行計算輸出結果
以前實現大資料的做法
(存貯)我們首先需要乙個資料來源,可以是日誌也可以是資料庫等等。然後我們對資料進行抽取、轉化、載入三個過程,將得到的資料存貯在資料庫中。
(計算)那麼接下來,我們可以使用jdbc或sql語句,對這些資料進行篩選、計算等操作。我們這時會得到乙個結果,這個結果可以儲存在mysql資料庫中,當然,其他的資料庫也是可以的。
hadoop的實現框架原理是和上面類似的,其實,hadoop就是乙個框架,更好的將上面的模組整合到了一起。
hadoop承擔資料儲存的模組是hdfs(分布式檔案系統)
hadoop承擔計算是mapreduce模組
這兩個模組對應的功能上面中可以清晰的看到,並且下面我們將重點介紹這兩個模組。
想要徹底理解這一塊的內容,就要理解下面這個圖。
如何理解Hadoop與大資料之間的關係
首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...
如何理解Hadoop與大資料之間的關係
首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...
如何理解Hadoop與大資料之間的關係
首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...