第二章初識hadoop
2.1hadoop概述
名稱由來:專案作者的孩子對黃色大象玩具的命名
開源、分布式儲存與分布式計算的平台
hadoop能做什麼:
1. 搭建大型資料倉儲,pb級資料的儲存、處理、分析、統計等業務
2. 搜尋引擎、日誌分析、資料探勘、商業智慧型
2.2hadoop核心元件
hdfs(分布式檔案系統)
1. 源於google在
2023年10
月發表的
gfs**
2. 對gfs的轉殖
3. 特點:擴充套件性、容錯性、海量資料儲存
4. 將檔案切分成指定大小的資料塊並且多副本存於多個機器上
5. 資料切分、多副本、容錯對使用者是透明的
yarn(資源管理系統)
1. 整個集群資源的管理與排程
2. 特點:擴充套件性、容錯性、多框架資源統一排程
mapreduce(分布式計算框架)
1. 2023年
12月的
googlemapreduce
**2. google mapreduce的轉殖版
3. 特點:擴充套件性、容錯性、海量資料的離線處理
2.3hadoop優勢
hadoop優勢之高擴充套件性
1. 儲存/計算資源不夠可以橫向線性的擴充套件機器
2. 乙個集群可以包含數以千計、萬計的節點
hadoop其他優勢
1. 儲存在低廉機器上、成本低廉
2. 成熟的生態圈
2.4hadoop發展史
《hadoop十年解讀與發展**》
狹義的hadoop:適合於大資料的分布式儲存(
hdfs
)、分布式計算(
mapreduce
)和資源排程(
yarn
)的平台。
廣義的hadoop:
hadoop
生態系統,龐大的概念,
hadoop
是其中最重要最基礎的一部分;生態系統中的每乙個子系統針對特定的問題域(甚至可能更窄);不搞統一型的全能系統,而是小而精的多個小系統。
2.5hadoop的生態系統
生態系統特點:
1. 開源、社群活躍
2. 囊括了大資料處理的方方面面
2.6hadoop發行版的選擇
1. apache hadoop
2. cdh(
cloudera distributed hadoop
)3.hdp(
hortonworks data platform
)
2.7企業中的應用案例
1. 消費大資料
2. 商品零售大資料
《Qt Quick 4小時入門》學習筆記4
qt quick 4小時入門第七章 處理滑鼠與鍵盤事件 1 處理滑鼠事件 滑鼠訊號傳遞乙個mouseevent型別的mouse引數 import qtquick2.7 import qtquick.controls2.0 import qtquick.layouts1.0 import qtquic...
大資料入門學習?
第一部分 了解大資料平台架構 大資料有非常大的價值,不管是從幫助企業創造營收還是從提高效率 節省企業成本角度。大資料要是做好了,將會是乙個企業增長的發動機,推動業務突飛猛進的發展。要實現大資料的價值,真正讓大資料為企業創造貢獻,首先必須要積累有大資料,把日常的業務和使用者行為資料收集起來。有些資料是...
大資料入門學習(一) 初識大資料
大資料的定義 大資料 big data 又稱為巨量資料,指需要新處理模式才能具有更強的決策力 洞察力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統...