初識大資料(三 Hadoop與MPP資料倉儲)

2021-09-07 20:39:53 字數 991 閱讀 5778

mpp代表大規模並行處理,這是網格計算中所有單獨節點參與協調計算的方法。 是將任務並行的分散到多個伺服器和節點上,在每個節點上計算完成後,將各自部分的結果彙總在一起得到最終的結果。 mpp dbms是建立在這種方法之上的資料庫管理系統。在這些系統中的每個查詢都會被分解為由mpp網格的節點並行執行的一組協調程序,它們的執行時間比傳統的smp rdbms系統快得多。該架構的另乙個優點是可擴充套件性,因為可以通過新增新節點擴充套件網格。為了能夠處理大量的資料,這些解決方案中的資料通常在每個節點只處理其本地資料的方式在節點(分片)之間分割。這是一種完全無共享(share nothing)結構,因而擴充套件能力最好,理論上其擴充套件無限制,目前技術上可實現512個節點互聯,數千個cpu。mpp有對sql的完整相容和一些事務處理功能,如果資料擴充套件需求不是特別大,資料都是結構化資料,習慣使用傳統rdbms,可以選擇mpp資料倉儲。

目前有很多關於hadoop技術棧與mpp資料倉儲的討論與對比,很多觀點認為hadoop可以替代mpp,但是從下表的比對可以看出兩者的差異,對於不同的場景以及mpp技術的發展,應該還是處於並存的狀態。另外,基於複雜的資料場景下,混合框架的使用,也還是會存的。我們團隊就使用混合框架構建了資料中心,從而完善oltp能力。

以下是兩者的比較:

特性

hadoop

mpp資料倉儲

計算節點數

可到數千個

一般1000個以內

資料量支援大於10p

一般不大於10p

資料型別

關係型時延

中/高低(但還是要看資料量和維度的數量)

應用生態

創新型/人工智慧

傳統資料庫型/bi類

應用開發介面

sql,mr,豐富的程式語言介面

標準資料庫sql

可擴充套件性

無窮的可能,完整的程式設計介面

有限擴充套件能力,主要通過udf支援

事務支援

有限完整**低

Hadoop大資料 Hive初識

hadoop提供了大資料的通用解決方案,比如儲存提供了hdfs,計算提供了mapreduce思想。但是想要寫出mapreduce演算法還是比較繁瑣的,對於開發者來說,需要了解底層的hadoop api。如果不是開發者想要使用mapreduce就會很困難.另一方面,大部分的開發者都有使用sql的經驗。...

Hadoop大資料 Hive初識

hadoop提供了大資料的通用解決方案,比如儲存提供了hdfs,計算提供了mapreduce思想。但是想要寫出mapreduce演算法還是比較繁瑣的,對於開發者來說,需要了解底層的hadoop api。如果不是開發者想要使用mapreduce就會很困難.另一方面,大部分的開發者都有使用sql的經驗。...

大資料學習 Hadoop初識三Yarn模式

閱讀原文 摘要 我們都知道在如今的hadoop中主要有三個重要的執行管理器。乙個hdfs,乙個mapreduce,還有就是我們今天要看的 yarn。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn這個模式管理的。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn...