關於大資料和雲計算的關係人們通常會有誤解。而且也會把它們混起來說,分別做一句話直白解釋就是:雲計算就是硬體資源的虛擬化;大資料就是海量資料的高效處理。如果做乙個更形象的解釋,雲計算相當於我們的計算機和作業系統,將大量的硬體資源虛擬化之後再進行分配使用;大資料則相當於海量資料的「資料庫」。
整體來看,未來的趨勢是,雲計算作為計算資源的底層,支撐著上層的大資料處理,而大資料的發展趨勢是,實時互動式的查詢效率和分析能力,當前的大資料處理一直在向著近似於傳統資料庫體驗的方向發展。
大資料的4v特性,即型別複雜,海量,快速和價值,其總體架構包括三層,資料儲存,資料處理和資料分析。型別複雜和海量由資料儲存層解決,快速和時效性要求由資料處理層解決,價值由資料分析層解決。資料先要通過儲存層儲存下來,然後根據資料需求和目標來建立相應的資料模型和資料分析指標體系對資料進行分析產生價值。而中間的時效性又通過中間資料處理層提供的強大的平行計算和分布式計算能力來完成。三層相互配合,讓大資料最終產生價值。
資料儲存層
從儲存層的搭建來說,關係型資料庫,nosql資料庫和hdfs分布式檔案系統三種儲存方式都需要。業務應用根據實際的情況選擇不同的儲存模式,但是為了業務的儲存和讀取方便性,我們可以對儲存層進一步的封裝,形成乙個統一的共享儲存服務層,簡化這種操作。從使用者來講並不關心底層儲存細節,只關心資料的儲存和讀取的方便性,通過共享資料儲存層可以實現在儲存上的應用和儲存基礎設定的徹底解耦。
資料處理層
資料處理層核心解決問題在於資料儲存出現分布式後帶來的資料處理上的複雜度,海量儲存後帶來了資料處理上的時效性要求,這些都是資料處理層要解決的問題。
在傳統的雲相關技術架構上,可以將hive,pig和hadoop-mapreduce框架相關的技術內容全部劃入到資料處理層的能力。原來我思考的是將hive劃入到資料分析層能力不合適,因為hive重點還是在真正處理下的複雜查詢的拆分,查詢結果的重新聚合,而mapreduce本身又實現真正的分布式處理能力。
mapreduce只是實現了乙個分布式計算的框架和邏輯,而真正的分析需求的拆分,分析結果的彙總和合併還是需要hive層的能力整合。最終的目的很簡單,即支援分布式架構下的時效性要求。
資料分析層
最後回到分析層,分析層重點是真正挖掘大資料的價值所在,而價值的挖掘核心又在於資料分析和挖掘。那麼資料分析層核心仍然在於傳統的bi分析的內容。包括資料的維度分析,資料的切片,資料的上鑽和下鑽,cube等。
資料分析我只關注兩個內容,乙個就是傳統資料倉儲下的資料建模,在該資料模型下需要支援上面各種分析方法和分析策略;其次是根據業務目標和業務需求建立的kpi指標體系,對應指標體系的分析模型和分析方法。解決這兩個問題基本解決資料分析的問題。
傳統的bi分析通過大量的etl資料抽取和集中化,形成乙個完整的資料倉儲,而基於大資料的bi分析,可能並沒有乙個集中化的資料倉儲,或者將資料倉儲本身也是分布式的了,bi分析的基本方法和思路並沒有變化,但是落地到執行的資料儲存和資料處理方法卻發生了大變化。
談了這麼多,核心還是想說明大資料兩大核心為雲技術和bi,離開雲技術大資料沒有根基和落地可能,離開bi和價值,大資料又變化為捨本逐末,丟棄關鍵目標。簡單總結就是大資料目標驅動是bi,大資料實施落地式雲技術。
大資料的核心技術(一)
我們在之前的文章中提到過,大資料的核心技術就是機器學習 資料探勘 人工智慧以及其它大資料處理基礎技術。在這篇文章中我們給大家詳細地介紹一下這些內容,希望這篇文章能能夠給大家帶來幫助。首先說一下機器學習,一般資料分析師都知道,機器學習是大資料處理承上啟下的關鍵技術,機器學習往上是深度學習 人工智慧,機...
大資料核心技術解讀
網際網路時代,我們每天都在生產著大量的資料,並且這些資料被記錄儲存下來,不斷地累積,資料規模越來越大,想要實現對資料的處理,就需要成熟的大資料技術框架來提供支援。今天的大資料前沿技術培訓分享,我們就來對大資料核心技術做乙個簡單的入門介紹。在大資料當中,相當一部分的資料是半結構化 非結構化的,並且伴隨...
大資料是什麼和大資料技術十大核心原理詳解
一 資料核心原理 從 流程 核心轉變為 資料 核心 大資料時代,計算模式也發生了轉變,從 流程 核心轉變為 資料 核心。hadoop體系的分布式計算框架已經是 資料 為核心的正規化。非結構化資料及分析需求,將改變it系統的公升級方式 從簡單增量到架構變化。大資料下的新思維 計算模式的轉變。例如 ib...