1、
什麼是大資料?
大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。
大資料的特徵
4v特徵:
volume(大資料量):90% 的資料是過去兩年產生
velocity(速度快):資料增長速度快,時效性高
variety(多樣化):資料種類和**多樣化
結構化資料、半結構化資料、非結構化資料
value(價值密度低):需挖掘獲取資料價值
固有特徵:
時效性不可變性
2、分布式計算
分布式計算將較大的資料分成小的部分進行處理
** **
傳統分布式計算新的分布式計算- hadoop
計算方式將資料複製到計算節點
在不同資料節點平行計算
可處理資料量小資料量大資料量
cpu效能限制
受cpu限制較大
受單台裝置限制小
提公升計算能力提公升單台機器計算能力擴充套件低成本伺服器集群
3、hadoop是什麼?
hadoop是乙個開源分布式系統架構
分布式檔案系統hdfs——解決大資料儲存
分布式計算框架mapreduce——解決大資料計算
分布式資源管理系統yarn
處理海量資料的架構首選
非常快得完成大資料計算任務
已發展成為乙個hadoop生態圈
hadoop發展及版本
hadoop起源於搜尋引擎apache nutch
創始人:doug cutting
2023年 - 最初版本實施
2023年 - 成為apache頂級專案
hadoop發行版本
社群版:apache hadoop
cloudera發行版:cdh
hortonworks發行版:hdp
為什麼使用hadoop?
高擴充套件性,可伸縮
高可靠性
多副本機制,容錯高
低成本無共享架構
靈活,可儲存任意型別資料
開源,社群活躍
hadoop vs rdbms**(hadoop與關係型資料庫對比)**
** **
rdbmshadoop
格式寫資料時要求讀資料時要求
速度讀資料速度快寫資料速度快
資料監管標準結構化任意結構資料
資料處理有限的處理能力強大的處理能力
資料型別結構化資料結構化、半結構化、非結構化
應用場景互動式olap分析acid事務處理企業業務系統
處理非結構化資料海量資料儲存計算
hadoop生態圈
是乙個分布式應用程式協調服務
解決分布式集群中應用系統的一致性問題
提供的功能
配置管理、命名服務、分布式同步、佇列管理、集群管理等
特性全域性資料一致
可靠性、順序性、實時性
資料更新原子性
zookeeper集群
角色:leader、follower、observer
hadoop架構
hdfs(hadoop distributed file system)
分布式檔案系統,解決分布式儲存
mapreduce
分布式計算框架
yarn
分布式資源管理系統
在hadoop 2.x中引入
common
支援所有其他模組的公共工具程式
hdfs特點
hdfs優點
支援處理超大檔案
可執行在廉價機器上
高容錯性
流式檔案寫入
hdfs缺點
不適合低延時資料訪問場景
不適合小檔案訪問場景
不適合併發寫入,檔案隨機修改場景
hdfs特點
hdfs優點
支援處理超大檔案
可執行在廉價機器上
高容錯性
流式檔案寫入
hdfs缺點
不適合低延時資料訪問場景
不適合小檔案訪問場景
不適合併發寫入,檔案隨機修改場景
大資料介紹
大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...
大資料介紹
一 什麼是大資料 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統,分布式資料庫,雲計算平台,網際網路,和可擴充套件的...
大資料介紹
一 什麼是大資料?大資料 指指資料集的大小超過了現有典型的資料庫軟體和工具的處理能力 的資料。二 大資料的特點 1 海量化 volume 資料量從tb到pb級別 2 多樣化 variety 資料型別複雜,超過80 的資料是非結構化的 3 快速化 velocity 資料量在持續增加 兩位數的年增長率 ...