大資料常和雲計算聯絡到一起,因為實時的大型資料集分析需要分布式處理框架來向數
十、數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大資料則是電。
雲計算思想的起源是麥卡錫在上世紀 60 年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給使用者。
如今,在 google、amazon、facebook 等一批網際網路企業引領下,一種行之有效的模式出現了:雲計算提供基礎架構平台,大資料應用執行在這個平台上。
那麼大資料到底需要哪些雲計算技術呢?
這裡暫且列舉一些,比如虛擬化技術,分布式處理技術,海量資料的儲存和管理技術,nosql、實時流資料處理、智慧型分析技術(類似模式識別以及自然語言理解)等。
分布式處理系統可以將不同地點的或具有不同功能的或擁有不同資料的多台計算機用通訊網路連線起來,在控制系統的統一管理控制下,協調地完成資訊處理任務—這就是分布式處理系統的定義。
舉個實際的例子,雖然這個例子有些陳舊,但是**的海量資料技術架構還是有助於我們理解對於大資料的運作處理機制:
**的海量資料產品技術架構分為五個層次,從上至下來看它們分別是:資料來源,計算層,儲存層,查詢層和產品層。
資料**層。存放著**各店的交易資料。在資料來源層產生的資料,通過
datax,dbsync 和 timetunel 準實時的傳輸到下面第 2 點所述的「雲梯」。
計算層。在這個計算層內,**採用的是 hadoop 集群,這個集群,我們暫且稱之為雲梯,是計算層的主要組成部分。在雲梯上,系統每天會對資料產品進行不同的 mapreduce 計算。
儲存層。在這一層,**採用了兩個東西,乙個是基於 mysql 的分布式關係型資料庫的集群 myfox,prom 是基於 hadoop hbase 技術的乙個 nosql 的儲存集群。
查詢層。在這一層中,glider 是以 http 協議對外提供 restful 方式的介面。資料產品通過乙個唯一的 url 來獲取到它想要的資料。同時,資料查詢即是通過 myfox 來查詢的。最後一層是產品層,這個就不用解釋了。
大資料可以抽象的分為大資料儲存和大資料分析,這兩者的關係是:大資料儲存的目的是支撐大資料分析。到目前為止,這是兩種截然不同的計算機技術領域:大資料儲存致力於研發可以擴充套件至 pb 甚至 eb 級別的資料儲存平台;大資料分析關注在最短時間內處理大量不同型別的資料集。
大資料的採集和感知技術的發展是緊密聯絡的。以感測器技術,指紋識別技術,rfid 技術,座標定位技術等為基礎的感知能力提公升同樣是物聯網發展的基石。全世界的工業裝置、汽車、電表上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,都會產生海量的資料資訊。
而隨著智慧型手機的普及,感知技術可謂迎來了發展的高峰期,除了地理位置資訊被廣泛的應用外,一些新的感知手段也開始登上舞台,比如,「iphone」在home 鍵內嵌指紋感測器,新型手機可通過呼氣直接檢測燃燒脂肪量,用於手機的嗅覺感測器面世可以監測從空氣汙染到危險的化學藥品,微軟正在研發可感知使用者當前心情智慧型手機技術,谷歌眼鏡insight新技術可通過衣著進行人物識別。
這些感知被逐漸捕獲的過程就是世界被資料化的過程,一旦世界被完全資料化了,那麼世界的本質也就是資訊了。就像一句名言所說,「人類以前延續的是文明,現在傳承的是資訊。」
二 大資料的生態體系
自下而上 資料傳輸層 根據資料的結構不同主要分為sqoop flume kafka等 資料儲存層 hadoop中常用的檔案儲存主件就是hdfs,hbase是非關係型資料以鍵值對儲存,kafka可以有1g的快取 資源管理層 yarn資源的管理,負責分配記憶體 網路分配等 資料計算層 分為離線排程和實時...
二 大資料相關的幾個名詞解釋
mapreduce是一套從海量源資料提取分析元素最後返回結果集的程式設計模型。程式設計模型是處理並結構化特定問題的方式。mapreduce程式本質上是並行執行的,由jobtrackers和tasktrackers組成。其優勢在於處理大規模資料集。將查詢表示成mapreduce作業,過程分為兩個處理階...
深度學習(二)大資料智慧型
1.1.2 連線主義 符號主義 1.1.4 逐層預訓練 1.1.5深度學習用武之地 1.分類 andrew ng rain,et al.2009 2.結構分類 實時翻譯 鄧力 socher,et al 2013 socher,et al.2012 devlin,et al.2014 skype tr...