前言:本文以《大資料技術入門》一書為基礎,在梳理全書內容的同時,融入了來自不同方面的知識,旨在幫助初學者更全面、更快速、更有效的了解大資料相關的知識。
big data
以下為文章目錄,具體內容見:
第一章 大資料時代... 1
1.1 大資料五大特徵... 1
1.2 大資料型別... 1
1.3 大資料商用化... 2
1.4 大資料產業鏈分析... 2
第二章 大資料軟體框架... 3
2.1 hadoop 框架... 3
2.1.1 hadoop的功能... 3
2.1.2 hadoop生態系統概述... 4
2.1.3 兩大核心元件介紹... 6
2.2 spark框架(記憶體計算框架)... 9
2.2.1 spark簡介... 9
2.2.2 spark架構... 9
2.2.3 spark vs hadoop. 10
2.2.4 spark core. 11
2.3 實時流處理框架... 11
2.4 框架選擇... 12
第三章 安裝與配置大資料軟體... 12
第四章 大資料儲存:檔案系統... 13
第五章 大資料儲存:資料庫... 14
第六章 大資料訪問:sql引擎層... 14
6.1 phoenix. 14
6.2 hive. 14
6.3 pig. 15
6.4 elasticsearch. 17
第七章 大資料採集與匯入... 17
7.1 flume. 17
7.2 kafka. 18
7.3 sqoop. 19
7.4 storm... 20
7.5 splunk. 21
第八章 大資料管理平台... 22
8.1 大資料建設框架... 22
8.2 easydoop案例分析... 23
第九章 spark技術... 24
9.1 spark簡介... 24
9.2 spark和hadoop生態關係... 25
第十章 大資料分析... 27
10.1 資料科學... 27
10.2 **分析... 27
10.3 機器學習... 27
10.4 spark mlib. 27
10.5 深入了解演算法... 28
第十一章 案例分析... 28
11.1 環保大資料... 28
11.2 公安大資料... 28
第十二章 大資料安全... 29
大資料基礎知識
一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...
大資料基礎知識(待續)
最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...
大資料相關基礎知識
apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...