大資料自 2009 年走向人們的視野,亦如所有新技術的發展,經歷了一波炒作後,由風口回歸理性發展。我們可以看到,隨著 iot 技術的發展和成熟,以及 5g 業務的全面鋪開,資料規模還將持續增長。
新晉技術風口 ai、區塊鏈、rpa 的發展也都離不開大資料技術。大資料技術將作為一項通用技術,應用在各個角落。同時,大資料技術的發展也由解決資料規模問題,發展到如何更高效地消費大資料,資料的實時性、雲上遷移等成為大資料圈的新挑戰。我們挑選了一些能應對這些新挑戰的有代表性的技術棧,繪製了如下大資料圈生態圖,並在下文對主流的技術棧進行了介紹:
olap 分析引擎:apache kylin™
apache kylin™ 是乙個開源的分布式分析引擎,提供 hadoop/spark 之上的 sql 查詢介面及多維分析(olap)能力以支援超大規模資料。apache kylin™ 僅需三步,即可實現超大資料集上的亞秒級查詢:
定義資料集上的乙個星形或雪花形模型
在定義的資料表上構建 cube
使用標準 sql 通過 odbc、jdbc 或 restful api 進行查詢
kylin 提供與多種資料視覺化工具的整合能力,如 tableau,powerbi 等。
都是 hbase 上的 sql 引擎,kylin 和 phoenix 有什麼不同?
kylin 在攜程百億級資料分析中的實踐
從 es 到 kylin,鬥魚客戶端效能分析平台進化之旅
如何在 1 秒內做到大資料精準去重?
想做大資料實時分析?且看 kylin 如何解決
新一代大資料計算引擎:apache flink
如果你也想做實時數倉...
flink 客戶端操作的 5 種模式
flink 狀態管理及容錯機制
flink sql 程式設計實踐
flink runtime 核心機制剖析
apache pulsar 源於 yahoo,2016 年開源,2018 年正式成為 apache 頂級專案,集訊息、儲存和函式式輕量化計算的流資料平台。
技術上採用業界領先的計算和儲存分離架構,使用 apache bookkeeper 作為其分片儲存,配合層級儲存,具備「高吞吐、低延時、分布式強一致、瞬時彈性擴容、balance-free、故障自恢復的高可用」 等核心特性。
apache pulsar 介紹
apache pulsar:從訊息系統到流原生平台
apache pulsar 專案和社群分享
apache pulsar 的跨地域複製機制介紹
flink 和 pulsar 的批流融合
開源的非關係型分布式資料庫:apache hbase
apache hbase 是乙個高可靠、高效能、面向列、可伸縮的分布式資料庫,是谷歌 bigtable 的開源實現,主要用來儲存非結構化和半結構化的鬆散資料。hbase 的目標是處理非常龐大的表,可以通過水平擴充套件的方式,利用廉價計算機集群處理由超過 10 億行資料和數百萬列元素組成的資料表。
再談 hbase 八大應用場景
hbase 原理|hbase 記憶體管理之 memstore 演化論
hbase 抗戰總結|阿里巴巴 hbase 高可用8年抗戰回憶錄
hbase 實踐|說好不哭,但 hbase 2.0 真的好用到哭
hbase 分享 | 基於 hbase 和 spark 構建企業級資料處理平台
開源分布式 nosql 資料庫系統:apache cassandra
一篇文章了解 apache cassandra 是什麼
apache cassandra 快速入門指南
誰說不火-價值百億 cassandra 背後的力量
5個選擇 cassandra 而非 dynamodb 的原因
曾經你對 cassandra 的一些誤解
大資料常用技術棧
提起大資料,不得不提由ibm提出的關於大資料的5v特性 volume 大量 velocity 高速 variety 多樣 value 低價值密度 veracity 真實性 而對於大資料領域的從業人員的日常工作也與這5v密切相關。大資料技術在過去的幾十年中取得非常迅速的發展,尤以hadoop和spar...
大資料 技術入門03
yarn是資源管理系統,理論上支援多種資源,目前支援cpu和記憶體兩種資源 yarn產生背景 直接源於mrv1在幾個方面的缺陷 擴充套件性受限 單點故障 難以支援mr之外的計算 多計算框架各自為戰,資料共享困難 mr 離線計算框架 storm 實時計算框架 spark 記憶體計算框架 yarn設計目...
大資料技術棧 ETL(資料倉儲技術)
etl特點 etl是英文extract transform load的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。目的就是將企業中的分散 零亂 標準不統一的資料整合到一起,為企業的決策提供分析依據。etl是bi business in...