大資料4個特性:大量化(資料量大)、多樣化(資料型別多)、快速化(處理速度快)、價值化(價值密度低)
科學研究4種正規化:實驗、理論、計算、資料
大資料關鍵技術兩大核心:
分布式儲存 :gfs/hdfs、big table、hbase、nosql(鍵值、列族、圖形、文件資料庫)、newsql(sql azure)
分布式處理 :mapreduce
大資料計算模式:
批處理計算:針對大規模資料的批量處理
流計算:針對流資料的實時計算
圖計算:針對大規模圖結構資料的處理
查詢分析計算:大規模資料的儲存管理和查詢分析
雲計算:
1、雲計算概念:通過網際網路為使用者提供所需的各種it資源
2、雲計算3種典型服務模式:iaas(基礎設施即服務)、paas(平台即服務)、saas(軟體即服務)
3、雲計算關鍵技術:虛擬化、分布式儲存、分布式計算、多租戶
4、雲計算資料中心:地質穩定,洪水,涼爽,電能高
物聯網:物物相連的網路
從技術架構上講:物聯網可分為四層:感知層、網路層、處理層和應用層
大資料技術:
1、資料本身:4個v
2、資料處理技術:分布式儲存、分布式管理
大資料、雲計算和物聯網三者之間既有區別又有聯絡。
大資料繼承與雲計算,為雲計算提供用武之地;
與計算為大資料提供技術基礎;
物聯網是大資料的重要**;
大資料為物聯網資料分析提供技術支撐;
物聯網為雲計算提供廣闊的應用空間;
雲計算為物聯網提供海量資料儲存能力。
大資料第一章複習
大資料4 v 資料量大 volume 資料型別繁多 variety 處理速度快 velocity 價值密度低 value 大資料對思維方式的影響 全樣而非抽樣 效率而非精確 相關而非因果。大資料的基本處理流程 資料採集 儲存 分析和結果呈現。資料採集與預處理 利用etl工具將分布的 異構資料來源中的...
大資料之路 第一章 總述
接下來,我們以阿里巴巴大資料架構圖來介紹。大資料系統體系分為資料採集層 資料計算層 資料服務層和資料應用層。簡單介紹一下這四層的具體作用和使用到的技術 講述的內容包含但不限於阿里巴巴的知識 1 資料採集層 資料採集的物件主要是傳統資料庫資料和日誌資料。一般公司採用sqoop開源工具採集傳統資料庫資料...
自學大資料系列 第一章 初識Hadoop
1 資料現狀 2006年數字世界 digital universe 專案統計得出全球資料總量為0.18zb,2011年將達到1.8zb 1zb 1 000eb 1 000 000pb 1 000 000 000tb 資料增長速度也在加快。2 資料的儲存 資料讀取速度慢 在硬碟容量不斷提公升的同時,資...