mpp (massively parallel processing),大規模並行處理系統,這樣的系統是由許多松耦合的處理單元組成的,要注意的是這裡指的是處理單元而不是處理器。每個單元內的 cpu都有自己私有的資源,如匯流排,記憶體,硬碟等。在每個單元內都有作業系統和管理資料庫的例項複本。這種結構最大的特點在於不共享資源。
mpp架構資料庫應具有的特徵:
● 任務並行執行;
● 資料分布式儲存(本地化);
● 分布式計算;
● 私有資源;
● 橫向擴充套件;
● shared nothing架構。
greenplum是一種基於postgresql的分布式資料庫。其採用shared nothing架構(mpp),主機,作業系統,記憶體,儲存都是自我控制的,不存在共享。也就是每個節點都是乙個單獨的資料庫。節點之間的資訊互動是通過
節點網際網路絡實現。通過將資料分布到多個節點上來實現規模資料的儲存,通過並行查詢處理來提高查詢效能。
這個怎麼感覺就像是把小資料庫組織起來,聯合成乙個大型資料庫。將資料分片,儲存在每個節點上。每個節點僅查詢自己的資料。所得到的結果再經過主節點處理得到最終結果。通過增加節點數目達到系統線性擴充套件。
總結—新型mpp資料庫的價值
技術:基於列儲存+mpp架構的新型資料庫在核心技術上跟傳統資料庫有巨大差別,是為面向結構化資料分析設計開發的,能夠有效處理pb級別的資料量。在技術上為很多行業使用者解決了資料處理效能問題。
使用者價值:新型資料庫是執行在x-86 pc伺服器之上的,可以大大降低資料處理的成本(1個數量級)。
未來趨勢:新型資料庫將逐步與hadoop生態系統結合混搭使用,用mpp處理pb級別的、高質量的結構化資料,同時為應用提供豐富的sql和事務支援能力;用hadoop實現半結構化、非結構化資料處理。這樣可同時滿足結構化、半結構化和非結構化資料的處理需求。
"大資料"關注的更多是使用者行為、群體趨勢、事件之間的相關性等,而不僅僅是過去的kpi,。這就對資料分析平台對資料的分析能力和效能提出了新的要求和挑戰。
什麼是MPP資料庫?
大規模並行分析 mpp 資料庫 analytical massively parallel processing mpp databases 是針對分析工作負載進行了優化的資料庫 聚合和處理大型資料集。mpp資料庫往往是列式的,因此mpp資料庫通常將每一列儲存為乙個物件,而不是將表中的每一行儲存為乙...
電信行業大資料應用的後盾 MPP架構資料庫技術
在大資料時代,資料呈 式增長,單個smp系統已經無法應付資料增長所帶來的巨大壓力。隨著網路技術的發展,pc伺服器的 小型化 以及linux系統的成熟,基於mpp架構的新一代資料庫技術成為各行業使用者的首選。電信行業作為國家重點行業,引領著it技術的發展方向和潮流,在高併發業務處理 海量資料分析等領域...
期待MPP資料庫一體機 硬資料庫
最近研究高效能olap和mpp的課題,感覺應用程式設計中併發程式設計的困難,使得mpp技術在資料庫之外好像沒有什麼用途,另外,傳統smp資料庫主機的效能提公升也遇到了障礙,倒不如直接mpp和database一體化,借助arm或者atom的低功耗併發集群,最好加上in memory database,...