資料量很大
一台機器存不下
我們以後要面對的不是一台機器,而是一堆機器。
儲存 : 資料量太多,一台機器存不下,需要很多機器一起存。
計算 : 資料量太多,一台機器算不過來,需要很多機器一起算。
乙個檔案太大,一台機器存不下。
使用 hadoop 管理多台機器。
把乙個檔案拆開存放。
主節點 :負責集群的管理。
從節點 :負責具體的工作。
舉個例子 :計算 1+2+3+ … + 100
第一台機器計算 1+2+ … 33
第二台機器計算 34+35+ … 66
第三台機器計算 67+68+ … 100
最後,主節點將結果彙總
實際情況:
當然了,這麼簡單的計算,不需要集群,我們只是舉例子而已,實際情況的資料量將會非常大。
架構模型:
1 1 大資料介紹
volume 資料規模,kb mb gb tb pb等,需要可擴充套件的大儲存 variety 資料多樣性,非 半 結構性資料 velocity 資料流轉速度,資料被處理的頻率及重要性,能對資料進行快速生成 收集和處理,且必須具有時效性 value 資料價值,通過分析學和大資料探勘發現資料潛在價值 ...
大資料介紹
大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...
大資料介紹
一 什麼是大資料 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式資料庫,雲計算平台,網際網路,和可擴充套件的...