整理自
oltp(增刪改)olap(查詢)二合一的系統,隨著資料量的增大開始分庫分表。之後大量資料的處理(min max **g ...)不易操作。
所有資料匯聚到乙個中心儲存,這個中心底層是「分布式」,但向上暴露的介面是「單機」的。這極大程度的降低了資料傳輸、儲存、分析的難度。
歷程:hadoop
2006 年出現 hadoop,其主要包括 1. mr(分布式計算)2. hdfs(分布式儲存)。
使用方法:寫3個函式: map函式、reduce函式、main函式。提交到hadoop集群由多台集群分布式計算。
hive
2010 年出現,是乙個在hadoop上層的sql翻譯器,將sql語句翻譯為**提交到hadoop中執行。
hadoop 2.0
將集群排程功能從mr中剝離,形成「分布式排程」,即yarn(yet another resource negotiator)。yarn的出現擴充套件了hadoop生態圈,不光mr,後來的spark、flink也能跑在yarn上。
在沒有雲的時代,大資料平台使用yarn做分布式排程;未來會逐步切換到雲原生(docker + k8s)
yarn:管理的是乙個個container,每個container是乙個jvm虛擬機器
k8s:管理的是乙個個docker,每個docker是乙個資源完全隔離的linux程序
spark
寫j**a spark**比寫mr更簡潔方便,spark比mr計算快許多,因為所有中間結果不落地儲存到hdfs,而是盡可能在記憶體中。
spark sql
與hive類似,使用者使用上沒有太大變化,都是寫sql,底層的計算引擎從mr切換到spark
pyspark
改寫j**a為寫python,降低開發門檻
之前的都是批處理計算,這時出現了「偽流式計算」。按照時間間隔把任務分解為乙個乙個的小型批處理任務,然後不斷向spark集群提交任務。
spark 部署方式
目前主要部署再yarn上,未來會遷移到k8s
flink是一種流失計算框架,曾經的流失計算框架storm已沒落。其與spark一樣,都支援單機、yarn、k8s等多種方式部署。
spark起家於批處理,往流式方向拓展;flink起家於流式處理,網批處理方向擴充套件。
sql只會越來越普及,因為它最簡單;mr是過去時,現在基本上都是spark/flink;yarn是現在,未來是k8s
大資料發展歷程
任何技術的出現,在前期都是理論先行,但此時沒有應用場景,不會大規模的推開,那技術都得不到深度的發展。任何技術深度的發展,都是在有了應用場景,降低了門檻,才會真正的發展起來。大資料技術的發展也是這樣的歷程 最開始是由於像谷歌,雅虎這樣的搜尋引擎,因為儲存的網頁數量巨大,才有了這樣的大資料的概念。所以大...
web發展歷程
每次開啟瀏覽器想要去找一些時候,總是要先找度娘 www.baidu.com 通過度娘我們可以搜尋到全網的資源,但是無論開啟那個 開頭的永遠是那雷打不動的三個 w 呢?www其實是 的姓,就好像有人姓趙,有人姓錢。這個姓誰起的呢?是一位英國計算機科學家 蒂姆 伯納斯 李。英國科學家蒂姆 伯納斯 李於1...
GAN 發展歷程
這幾年出現的比較有影響力的 gan,從最初的 goodfellow 版 gan 到近來大火的 biggan stylegan 等,部落格的後續內容也是按照這張圖的順序進行的。gan 路線圖。goodfellow 版 gan gan 是由 goodfellow 等人於 2014 年提出的 目前公認的說...