1,大資料介紹

2021-09-24 11:38:23 字數 590 閱讀 1142

資料量很大

一台機器存不下

我們以後要面對的不是一台機器,而是一堆機器。

儲存 : 資料量太多,一台機器存不下,需要很多機器一起存。

計算 : 資料量太多,一台機器算不過來,需要很多機器一起算。

乙個檔案太大,一台機器存不下。

使用 hadoop 管理多台機器。

把乙個檔案拆開存放。

主節點 :負責集群的管理。

從節點 :負責具體的工作。

舉個例子 :計算 1+2+3+ … + 100

第一台機器計算 1+2+ … 33

第二台機器計算 34+35+ … 66

第三台機器計算 67+68+ … 100

最後,主節點將結果彙總

實際情況:

當然了,這麼簡單的計算,不需要集群,我們只是舉例子而已,實際情況的資料量將會非常大。

架構模型:

1 1 大資料介紹

volume 資料規模,kb mb gb tb pb等,需要可擴充套件的大儲存 variety 資料多樣性,非 半 結構性資料 velocity 資料流轉速度,資料被處理的頻率及重要性,能對資料進行快速生成 收集和處理,且必須具有時效性 value 資料價值,通過分析學和大資料探勘發現資料潛在價值 ...

大資料介紹

大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...

大資料介紹

一 什麼是大資料 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式資料庫,雲計算平台,網際網路,和可擴充套件的...