大資料發展歷程

2022-10-11 13:03:13 字數 1744 閱讀 2714

整理自

oltp(增刪改)olap(查詢)二合一的系統,隨著資料量的增大開始分庫分表。之後大量資料的處理(min max **g ...)不易操作。

所有資料匯聚到乙個中心儲存,這個中心底層是「分布式」,但向上暴露的介面是「單機」的。這極大程度的降低了資料傳輸、儲存、分析的難度。

歷程:hadoop

2006 年出現 hadoop,其主要包括 1. mr(分布式計算)2. hdfs(分布式儲存)。

使用方法:寫3個函式: map函式、reduce函式、main函式。提交到hadoop集群由多台集群分布式計算。

hive

2010 年出現,是乙個在hadoop上層的sql翻譯器,將sql語句翻譯為**提交到hadoop中執行。

hadoop 2.0

將集群排程功能從mr中剝離,形成「分布式排程」,即yarn(yet another resource negotiator)。yarn的出現擴充套件了hadoop生態圈,不光mr,後來的spark、flink也能跑在yarn上。

在沒有雲的時代,大資料平台使用yarn做分布式排程;未來會逐步切換到雲原生(docker + k8s)

yarn:管理的是乙個個container,每個container是乙個jvm虛擬機器

k8s:管理的是乙個個docker,每個docker是乙個資源完全隔離的linux程序

spark

寫j**a spark**比寫mr更簡潔方便,spark比mr計算快許多,因為所有中間結果不落地儲存到hdfs,而是盡可能在記憶體中。

spark sql

與hive類似,使用者使用上沒有太大變化,都是寫sql,底層的計算引擎從mr切換到spark

pyspark

改寫j**a為寫python,降低開發門檻

之前的都是批處理計算,這時出現了「偽流式計算」。按照時間間隔把任務分解為乙個乙個的小型批處理任務,然後不斷向spark集群提交任務。

spark 部署方式

目前主要部署再yarn上,未來會遷移到k8s

flink是一種流失計算框架,曾經的流失計算框架storm已沒落。其與spark一樣,都支援單機、yarn、k8s等多種方式部署。

spark起家於批處理,往流式方向拓展;flink起家於流式處理,網批處理方向擴充套件。

sql只會越來越普及,因為它最簡單;mr是過去時,現在基本上都是spark/flink;yarn是現在,未來是k8s

大資料發展歷程

任何技術的出現,在前期都是理論先行,但此時沒有應用場景,不會大規模的推開,那技術都得不到深度的發展。任何技術深度的發展,都是在有了應用場景,降低了門檻,才會真正的發展起來。大資料技術的發展也是這樣的歷程 最開始是由於像谷歌,雅虎這樣的搜尋引擎,因為儲存的網頁數量巨大,才有了這樣的大資料的概念。所以大...

web發展歷程

每次開啟瀏覽器想要去找一些時候,總是要先找度娘 www.baidu.com 通過度娘我們可以搜尋到全網的資源,但是無論開啟那個 開頭的永遠是那雷打不動的三個 w 呢?www其實是 的姓,就好像有人姓趙,有人姓錢。這個姓誰起的呢?是一位英國計算機科學家 蒂姆 伯納斯 李。英國科學家蒂姆 伯納斯 李於1...

GAN 發展歷程

這幾年出現的比較有影響力的 gan,從最初的 goodfellow 版 gan 到近來大火的 biggan stylegan 等,部落格的後續內容也是按照這張圖的順序進行的。gan 路線圖。goodfellow 版 gan gan 是由 goodfellow 等人於 2014 年提出的 目前公認的說...