大資料兩個主要的儲存系統:hdfs和hbase
批處理比較熱門的大資料框架是hadoop和spark
hadoop和spark的最基本的區別:hadoophe spark 這二者都是大資料框架,即便如此二者各自存在的目的是不同的。hadoop是乙個分布式的資料基礎設施,它是將龐大的資料集分派到由若干臺計算機組成的集群中的多個節點進行儲存。spark是乙個專門用來對那些分布式儲存的大資料進行處理的工具,spark本身並不會進行分布式資料的儲存。
流處理比較熱門的大資料框架是storm和flink
在批處理中,hadoop具有更加強大的體系,也是逐漸成為主流;而在流處理中,flink正在逐漸成為主流,因為flink有著比storm更加先進的框架,而且flink是支援批處理和流處理。
最後,大家可以自己去詳細了解他們的相同之處以及區別。
在許多大公司中,這是支撐億萬資料的基本平台。有人說,大資料會是今後最甜的蛋糕之一
大資料技術 Flink
它既能保證資料一致性 exactly once 又能實時快速的處理海量資料。與生俱來的 watermark 功能讓它能對複雜資料亂序場景應對自如,它充分體現了 批 流 一體的完美結合同時又代表著 流 表 二象性的和諧統一。兩種資料集 無邊界資料集 連續不斷追加 和有邊界資料集 兩種執行模式 流式傳輸...
大資料基礎 Flink 視窗模型
在大多數場景下,我們需要統計的資料流都是無界的,因此我們無法等待整個資料流終止後才進行統計。通常情況下,我們只需要對某個時間範圍或者數量範圍內的資料進行統計分析 如每隔五分鐘統計一次過去一小時內所有商品的點選量 或者每發生1000次點選後,都去統計一下每個商品點選率的佔比。在 flink 中,我們使...
大資料「重磅炸彈」 實時計算框架 Flink
apache flink 是一款面向資料流處理和批處理的可分布式的新一代大資料實時處理引擎,簡直是大資料中的 重磅炸彈 對於大資料開發者來說,實時計算一時爽,一直實時計算一直爽 對於有實時計算場景需求的後端開發也可以了解一下。本場 chat 首先會分析一下公司常見的實時計算場景需求有哪些,然後對實時...