「大資料」的概念起源於2023年9月《自然》(nature)雜誌刊登的名為「big data」的專題,由於成因複雜,至今對大資料沒有公認的定義。
定義一
定義二:在《大資料時代》一書中,把大資料看成是一種方法,即不能用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料的方法。這種定義更強調應用方法。
定義三:大資料是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。這種定義更側重應用價值。
以上三種定義中,第一種比較好理解,即「規模巨大,無法通過人工來處理」。
2023年個人使用者邁入tb時代。硬碟的儲存能力也一直在增強。
1byte=8bit
1kb=1024byte
1mb=1024kb
1gb=1024mb
1tb=1024gb
1pb=1024tb
1eb=1024pb
1zb=1024eb
1yb=1024zb
....
1.規模性(volume):從資料的儲存和計算均需耗費海量規模的資源。
2.高速型(velocity):新資料的產生速度快、需要實時處理,只有更新過的最新的資料才有價值。
4.價值稀疏性(value):大資料價值非常的高,但是知識密度非常低,所以只有經過高度分析的大資料才可以產生新的價值。
3.商業情報分析。比如飛機票**隨時間的變化規律。
4.科學研究。利用儀器獲取資料或者利用模擬器生成資料,再利用軟體處理資料,將知識或資訊儲存在計算機中,利用統計學方法進行科學發現。
大資料筆記1
spark實現平行計算 把超大的資料集合分成n個分塊的資料集,用m個執行器 mspark是一種分布式並行處理計算框架,與hadoop聯合使用,增強hadoop的效能,增加記憶體快取 流資料處理 圖形處理等高階的資料處理能力。spark的中間結果儲存在記憶體上,在迭代計算方面擁有更好的效能,而mapr...
1 大資料概述
大資料時代的三種標誌 大資料,雲計算,物聯網。雲計算概念 通過網路以服務的方式為使用者提供非常廉價的it資源。雲計算通俗點講就是把以前需要本地處理器計算的任務交到了遠端伺服器上去做。幾個雲計算的應用例項 第二是網頁遊戲。這其實也是一種雲計算應用,把以前需要在本地安裝的客戶端放到了網頁上,通過基於網頁...
1 大資料概述
1.借鑑網圖 2.兩者的各方面比較 1 spark對標於hadoop中的計算模組mr,但是速度和效率比mr要快得多 2 spark沒有提供檔案管理系統,所以,它必須和其他的分布式檔案系統進行整合才能運作,它只是乙個計算分析框架,專門用來對分布式儲存的資料進行計算處理,它本身並不能儲存資料 3 spa...