三次浪潮:資訊處理,資訊傳輸,資訊**
運營式系統階段,使用者原創內容階段,感知式系統階段
萌芽期,成熟期,大規模應用期(2023年後)
大資料概念
資料量大(volume)
資料型別多(vareity):結構化資料和非結構化資料
處理速度快(velocity)
價值密度低(value)
大資料影響
科學研究
實驗科學,理論科學,計算科學,資料密集型科學
思維方式
社會發展
新的決策方式,促進資訊科技與各行業的深度融合,推動新技術與新應用的不斷湧現
就業市場
大資料分析
人才培養
資料科學家,資料分析基礎能力
大資料應用
網際網路,生物醫學,物流,其它領域
大資料關鍵技術
資料採集與預處理
利用etl工具將分布的、異構資料來源中的資料(比如關係資料,平面資料檔案等),抽取到中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集中,成為聯機分析處理,資料探勘的基礎,可以利用日誌採集工具(flume,kafka等)把實時採集的資料作為流計算系統的輸入,進行實時處理分析
資料儲存與管理
利用分布式檔案系統、資料倉儲、關聯式資料庫、nosql資料庫、雲資料庫等,實現對結構化、半結構化和非結構化海量資料的儲存和管理
資料處理與分析
利用分布式並行程式設計模型和計算框架,結合機器學習和資料探勘演算法,實現對海量資料的處理和分析,對分析結果進行視覺化呈現
資料安全和隱私保護
構建隱私資料保護體系和資料安全體系,有效保護個人隱私和資料安全
大資料計算模式
批處理計算
針對大規模資料的批量處理:mapreduce、spark等
spark式乙個針對超大資料集合的低延遲的集群分布式計算系統
mapreduce作為單輸入、兩階段、粗粒度並行的分布式計算框架
流計算針對流資料的實時計算:storm、s4、flume、streams、puma、dstream,supermario,銀河流資料處理平台等
圖計算針對大規模圖結構資料的處理:pregel,graphx,giraph,powergraph,hama,goldenrb等
查詢分析計算
大規模資料的儲存管理和查詢分析:dremel,hive,cassendra,impala等
大資料產業
it基礎設施層
提供硬體,軟體,網路等基礎設施以及提供諮詢,規劃和系統整合服務的企業,提供資料中心解決方案的ibm,惠普和戴爾等,提供儲存解決方案的emc,提供虛擬化管理軟體的微軟,思傑,sun,redhat等
資料來源層
資料管理層
分布式檔案系統
etl工具(informatica,datastage,kettle等)
資料庫資料倉儲(oracle,mysql,sql server,hbase,greenplum)
資料分析層
分布式計算框架,統計分析軟體spss和sas,資料探勘工具weka、資料視覺化工具tbleau,bi工具(microstrategy,cognos,bo)等
資料平台層
資料應用層
大資料處理架構hadoop
hadoop的特性
hadoop生態系統
hadoop安裝與使用
大資料與雲計算、物聯網的關係
雲計算的概念
雲計算代表了以虛擬化技術為核心、以低成本為目標的、動態可擴充套件的網路應用基礎設施
三種服務模式:iaas(基礎設施即服務),paas(平台即服務),saas(軟體即服務)
包含公有雲、私有雲以及混合雲
雲計算關鍵技術
虛擬化:將一台計算機虛擬為多台邏輯計算機,可以是硬體也可以是軟體
分布式儲存:滿足大型,分布式,對大量資料進行訪問的應用的需求
谷歌後來又以gfs為基礎開發了分布式資料管理系統bigtable,稀疏、分布、持續多維度的排序對映陣列,適合於非結構化資料儲存的資料庫,具有高可靠性,高效能,可伸縮等特點,在鏈家pc伺服器上搭建起大鬼模儲存集群,hbase是針對bigtable的開源實現
分布式計算
多租戶:資料隔離,客戶化配置,架構擴充套件,效能定製
物聯網的概念
感知層、網路層、處理層和應用層
物聯網關鍵技術
識別和感知技術,網路和通訊技術,資料探勘和融合技術
大資料、雲計算與物聯網相輔相成
雲計算為大資料提供了技術基礎,大資料為雲計算提供用武之地
雲計算為物聯網提供海量資料儲存能力,物聯網為雲計算技術提供廣闊的應用空間
物聯網是大資料的重要**,大資料技術為物聯網資料分析提供支撐
大資料關鍵技術
資料採集
資料儲存與管理
資料處理與分析
資料隱私與安全
大資料計算模式
批處理計算
流計算圖計算
查詢分析計算
大資料基礎
hadoop是提供分布式的儲存 乙個檔案被拆分成很多個快,並且以副本的反式儲存在各個節點中 和計算。分布式檔案系統 hdfs實現將檔案分布式儲存在很多的伺服器上。hdfs特點 擴充套件性 容錯性 海量數量儲存 工作機制 將檔案切分為指定大小的資料塊並以多副本儲存在多個機器上。資料切分 多副本 容錯等...
大資料 Centos基礎
簡單學學常見的一些指令。首先,我們在vmware中安裝乙個centos的虛擬機器,安裝完畢之後是沒有網路,我們需要配置下網路。networkking yes hostname hadoop 主機名稱 底下的subnet ip和subnet mask是後邊配置需要的。檢視 修改ifcfg ens33新...
大資料基礎問題
1 什麼是大資料?大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。2 什麼是大資料技術?哪些技術適應於大資料?大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式...