大資料發展歷程

整理自

oltp（增刪改）olap（查詢）二合一的系統，隨著資料量的增大開始分庫分表。之後大量資料的處理（min max **g ...）不易操作。

所有資料匯聚到乙個中心儲存，這個中心底層是「分布式」，但向上暴露的介面是「單機」的。這極大程度的降低了資料傳輸、儲存、分析的難度。

歷程：hadoop

2006 年出現 hadoop，其主要包括 1. mr（分布式計算）2. hdfs（分布式儲存）。

使用方法：寫3個函式： map函式、reduce函式、main函式。提交到hadoop集群由多台集群分布式計算。

hive

2010 年出現，是乙個在hadoop上層的sql翻譯器，將sql語句翻譯為**提交到hadoop中執行。

hadoop 2.0

將集群排程功能從mr中剝離，形成「分布式排程」，即yarn（yet another resource negotiator）。yarn的出現擴充套件了hadoop生態圈，不光mr，後來的spark、flink也能跑在yarn上。

在沒有雲的時代，大資料平台使用yarn做分布式排程；未來會逐步切換到雲原生（docker + k8s）

yarn：管理的是乙個個container，每個container是乙個jvm虛擬機器

k8s：管理的是乙個個docker，每個docker是乙個資源完全隔離的linux程序

spark

寫j**a spark**比寫mr更簡潔方便，spark比mr計算快許多，因為所有中間結果不落地儲存到hdfs，而是盡可能在記憶體中。

spark sql

與hive類似，使用者使用上沒有太大變化，都是寫sql，底層的計算引擎從mr切換到spark

pyspark

改寫j**a為寫python，降低開發門檻

之前的都是批處理計算，這時出現了「偽流式計算」。按照時間間隔把任務分解為乙個乙個的小型批處理任務，然後不斷向spark集群提交任務。

spark 部署方式

目前主要部署再yarn上，未來會遷移到k8s

flink是一種流失計算框架，曾經的流失計算框架storm已沒落。其與spark一樣，都支援單機、yarn、k8s等多種方式部署。

spark起家於批處理，往流式方向拓展；flink起家於流式處理，網批處理方向擴充套件。

sql只會越來越普及，因為它最簡單；mr是過去時，現在基本上都是spark/flink；yarn是現在，未來是k8s

大資料發展歷程

任何技術的出現，在前期都是理論先行，但此時沒有應用場景，不會大規模的推開，那技術都得不到深度的發展。任何技術深度的發展，都是在有了應用場景，降低了門檻，才會真正的發展起來。大資料技術的發展也是這樣的歷程最開始是由於像谷歌，雅虎這樣的搜尋引擎，因為儲存的網頁數量巨大，才有了這樣的大資料的概念。所以大...

web發展歷程

每次開啟瀏覽器想要去找一些時候，總是要先找度娘 www.baidu.com 通過度娘我們可以搜尋到全網的資源，但是無論開啟那個開頭的永遠是那雷打不動的三個 w 呢？www其實是的姓，就好像有人姓趙，有人姓錢。這個姓誰起的呢？是一位英國計算機科學家蒂姆伯納斯李。英國科學家蒂姆伯納斯李於1...

GAN 發展歷程

這幾年出現的比較有影響力的 gan，從最初的 goodfellow 版 gan 到近來大火的 biggan stylegan 等，部落格的後續內容也是按照這張圖的順序進行的。gan 路線圖。goodfellow 版 gan gan 是由 goodfellow 等人於 2014 年提出的目前公認的說...

大資料發展歷程

大資料發展歷程

web發展歷程

GAN 發展歷程

相關推薦