阿里雲大資料元件選型

2021-10-01 10:10:09 字數 631 閱讀 8465

大資料使用場景e-mapreduce 產品當前主要滿足企業的以下大資料場景:批處理場景該場景對磁碟吞吐和網路吞吐要求高,處理的資料量也大,但對資料處理的實時性要求不高,您可選用 mapreduce、pig、spark 元件。該場景對記憶體要求不高,選型時您需要重點關注大作業對 cpu 和記憶體的需求,以及 shuffle 對網路的需求。

ad-hoc 查詢資料科學家或資料分析師使用即席查詢工具檢索資料。該場景對查詢實時性、磁碟吞吐和網路吞吐要求高,您可選用 e-mapreduce 的 impala 和 presto 元件。該場景對記憶體要求高,選型時需要考慮資料和併發查詢的數量。

流式計算、高網路吞吐和計算密集型場景選用 e-mapreduce flink、spark streaming 和 storm 元件。訊息佇列該場景對磁碟吞吐和網路吞吐要求高,並且記憶體消耗大,儲存不依賴於 hdfs,您可選用 e-mapreduce kafka。為避免對 hadoop 造成影響,e-mapreduce 將 kafka 與 hadoop 分為兩個集群。

資料冷備場景該場景對計算和磁碟吞吐要求不高,但要求冷備成本低,推薦使用 emr d1 例項做資料冷備,d1 本地盤例項儲存成本為 0.02 元/月/gb。

阿里雲 vs Azure 大資料

本文比較了azure和阿里雲提供的資料庫服務,以幫助專業人士了解兩者的差異和共同點。無論您計畫從azure遷移至阿里雲,或是選擇同時使用azure 阿里雲的多雲模式,本文都將幫助您了解阿里雲的資料庫服務。阿里雲將資料庫服務分為如下表中的服務型別,每種型別提供了各具特點的產品,本文將從以下列表中重點介...

大資料 阿里雲資料整合平台使用教程

資料整合 data integration 是阿里集團對外提供的可跨異構資料儲存系統的 可靠 安全 低成本 可彈性擴充套件的資料同步平台,為20 種資料來源提供不同網路環境下的離線 全量 增量 資料進出通道,是阿里集團對外提供的穩定高效 彈性伸縮的資料同步平台。致力於提供複雜網路環境下 豐富的異構資...

大資料 技術選型對比

公司要開搞大資料了,針對大資料的一般姿勢做了個簡單調研。hbase 非關係型分布式資料庫,基於hdfs,高容錯 高吞吐。hbase採用的是key value的儲存方式,即使隨著資料量增大,也幾乎不會導致查詢的效能下降。flume 最主要的作用就是,實時讀取伺服器本地磁碟的資料,將資料寫入到hdfs ...