大資料Hadoop的整體理解

2021-10-08 17:57:04 字數 535 閱讀 7737

大資料一直是在討論兩個問題:資料儲存與資料計算。

如何將得到的資料儲存起來與如何對得到的資料進行計算輸出結果

以前實現大資料的做法

(存貯)我們首先需要乙個資料來源,可以是日誌也可以是資料庫等等。然後我們對資料進行抽取、轉化、載入三個過程,將得到的資料存貯在資料庫中。

(計算)那麼接下來,我們可以使用jdbc或sql語句,對這些資料進行篩選、計算等操作。我們這時會得到乙個結果,這個結果可以儲存在mysql資料庫中,當然,其他的資料庫也是可以的。

hadoop的實現框架原理是和上面類似的,其實,hadoop就是乙個框架,更好的將上面的模組整合到了一起。

hadoop承擔資料儲存的模組是hdfs(分布式檔案系統)

hadoop承擔計算是mapreduce模組

這兩個模組對應的功能上面中可以清晰的看到,並且下面我們將重點介紹這兩個模組。

想要徹底理解這一塊的內容,就要理解下面這個圖。

如何理解Hadoop與大資料之間的關係

首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...

如何理解Hadoop與大資料之間的關係

首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...

如何理解Hadoop與大資料之間的關係

首先,大資料本身涉及到乙個龐大的技術體系,從學科的角度來看,涉及到數學 統計學和計算機三大學科,同時還涉及到社會學 經濟學 醫學等學科,所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看,大資料領域涉及到資料採集 資料儲存 資料分析和資料應用等環節,不同的環節需要採用不同的技術,但是這...