大資料介紹及hadoop簡介

1、

什麼是大資料？

大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。

大資料的特徵

4v特徵：

volume(大資料量)：90% 的資料是過去兩年產生

velocity(速度快)：資料增長速度快，時效性高

variety(多樣化)：資料種類和**多樣化

結構化資料、半結構化資料、非結構化資料

value(價值密度低)：需挖掘獲取資料價值

固有特徵：

時效性不可變性

2、分布式計算

分布式計算將較大的資料分成小的部分進行處理

** **

傳統分布式計算新的分布式計算- hadoop

計算方式將資料複製到計算節點

在不同資料節點平行計算

可處理資料量小資料量大資料量

cpu效能限制

受cpu限制較大

受單台裝置限制小

提公升計算能力提公升單台機器計算能力擴充套件低成本伺服器集群

3、hadoop是什麼？

hadoop是乙個開源分布式系統架構

分布式檔案系統hdfs——解決大資料儲存

分布式計算框架mapreduce——解決大資料計算

分布式資源管理系統yarn

處理海量資料的架構首選

非常快得完成大資料計算任務

已發展成為乙個hadoop生態圈

hadoop發展及版本

hadoop起源於搜尋引擎apache nutch

創始人：doug cutting

2023年 - 最初版本實施

2023年 - 成為apache頂級專案

hadoop發行版本

社群版：apache hadoop

cloudera發行版：cdh

hortonworks發行版：hdp

為什麼使用hadoop?

高擴充套件性，可伸縮

高可靠性

多副本機制，容錯高

低成本無共享架構

靈活，可儲存任意型別資料

開源，社群活躍

hadoop vs rdbms**(hadoop與關係型資料庫對比)**

** **

rdbmshadoop

格式寫資料時要求讀資料時要求

速度讀資料速度快寫資料速度快

資料監管標準結構化任意結構資料

資料處理有限的處理能力強大的處理能力

資料型別結構化資料結構化、半結構化、非結構化

應用場景互動式olap分析acid事務處理企業業務系統

處理非結構化資料海量資料儲存計算

hadoop生態圈

是乙個分布式應用程式協調服務

解決分布式集群中應用系統的一致性問題

提供的功能

配置管理、命名服務、分布式同步、佇列管理、集群管理等

特性全域性資料一致

可靠性、順序性、實時性

資料更新原子性

zookeeper集群

角色：leader、follower、observer

hadoop架構

hdfs(hadoop distributed file system)

分布式檔案系統，解決分布式儲存

mapreduce

分布式計算框架

yarn

分布式資源管理系統

在hadoop 2.x中引入

common

支援所有其他模組的公共工具程式

hdfs特點

hdfs優點

支援處理超大檔案

可執行在廉價機器上

高容錯性

流式檔案寫入

hdfs缺點

不適合低延時資料訪問場景

不適合小檔案訪問場景

不適合併發寫入，檔案隨機修改場景

hdfs特點

hdfs優點

支援處理超大檔案

可執行在廉價機器上

高容錯性

流式檔案寫入

hdfs缺點

不適合低延時資料訪問場景

不適合小檔案訪問場景

不適合併發寫入，檔案隨機修改場景

大資料介紹

大資料技術的戰略意義不在於掌握龐大的資料量，而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長，也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料，儲存在資料庫中 90 的非結構化資料，它們與人類資訊密切相關資料結構參閱c語言資料結構資料結構是計...

大資料介紹

一什麼是大資料大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取管理和處理的資料集合。大資料技術，是指從各種各樣型別的資料中，快速獲得有價值資訊的能力。適用於大資料的技術，包括大規模並行處理 mpp 資料庫，資料探勘電網，分布式檔案系統，分布式資料庫，雲計算平台，網際網路，和可擴充套件的...

大資料介紹

一什麼是大資料?大資料指指資料集的大小超過了現有典型的資料庫軟體和工具的處理能力的資料。二大資料的特點 1 海量化 volume 資料量從tb到pb級別 2 多樣化 variety 資料型別複雜，超過80 的資料是非結構化的 3 快速化 velocity 資料量在持續增加兩位數的年增長率 ...

大資料介紹及hadoop簡介

大資料介紹

大資料介紹

大資料介紹

相關推薦