處理過程:cpu處理記憶體資料,記憶體資料從硬碟中讀取
瓶頸:當資料量大時,會增加硬碟到記憶體的io;單機為縱向擴充套件,成本較高,要求硬碟要大,記憶體要大,cpu速度要快
分布式儲存
大資料用n臺伺服器存放乙份大的資料,對資料進行並行處理,io比單臺裝置整整提公升n倍。解決伺服器成本問題和io讀寫問題
分布式計算
分布式計算基於分布式儲存
zookeeper分布式鎖,管理整個集群的協調,保證大資料的高可靠
hdfs分布式檔案系統
mapreduce分布式計算框架
yarn資源管理
hbase分布式nosql資料庫
hive分布式資料倉儲
分布式實時流計算引擎
flume海量日誌聚合
kafka分布式訂閱系統
sqoop資料採集
flink流計算處理和批處理平台
spark基於記憶體的分布式計算
*資料庫
大資料資料規模
小(以mb為處理單位)
大(以gb、tb、pb為處理單位)
資料型別
單一(結構化為主)
繁多(結構化、半結構化、非結構化)
模式和資料的關係
先有模式後有資料
先有資料後有模式,模式隨資料增多不斷演變
快速入門大資料
本人30歲,從學大資料到現在有6年的時間,我談一下我的經驗分享 我自己的經歷 剛開始大資料是看書,一頁頁的看書,因為身邊有乙個好的資源,有問題可以問我朋友,後來發現看大資料的零基礎書籍很難看下去,很多專業的東西對於乙個新手根本就看不懂,沒有什麼效率。在這裡我個人建議,初學不要看書,我的建議是學完一部...
大資料入門學習?
第一部分 了解大資料平台架構 大資料有非常大的價值,不管是從幫助企業創造營收還是從提高效率 節省企業成本角度。大資料要是做好了,將會是乙個企業增長的發動機,推動業務突飛猛進的發展。要實現大資料的價值,真正讓大資料為企業創造貢獻,首先必須要積累有大資料,把日常的業務和使用者行為資料收集起來。有些資料是...
初識大資料入門
大資料平台從平台部署和資料分析過程分以下幾步 一 linux系統安裝 一般使用開源版的redhat系統 centos作為底層平台。為了提供穩定的硬體基礎,在給硬碟做raid和掛載資料儲存節點的時,需要按情況配置。例如,可以選擇給hdfs的namenode做raid2以提高其穩定性,將資料儲存與作業系...