虛擬化技術與大資料 新書推薦 大資料技術基礎

2021-10-12 17:08:41 字數 3172 閱讀 6729

然而,面向大資料技術應該學什麼?如何學?以及學會怎樣用?是困擾眾多大資料初學者的主要問題。圍繞這些問題,我們以大資料相關概念及技術為主線,採用模組化方法對大資料及其相關的基本理論、關鍵技術和實際應用進行了綜合梳理,構建了大資料模組化知識體系;基於深入淺出思想及配套的實用**應用案例和操作實踐,融會貫通資料科學與大資料技術專業知識「做中學」解決方案,促進大資料思維和計算思維的培養;從理論結合實踐的角度,基於產學研合作專案及科研專案成果示範,通過引入中科曙光等大資料應用案例,全面構建資料科學與大資料技術專業知識體系和應用框架。

配套資源全書配備了教學大綱、教學進度表、教學課件和程式原始碼等教學資源,基於不同的教學內容和教學目標,依據模組化知識框架,可以輕鬆定製32學時,48學時及64學時的教學進度規劃。

適讀物件全書分為五篇共16章,內容概況如下:

第一篇大資料基礎篇:本篇著重介紹大資料基本概念和大資料hadoop平台元件,旨在幫助讀者正確理解大資料的核心概念及其應用技術,為讀者後續章節的學習奠定基礎。本篇包括2章:

第1章主要介紹了大資料產生的背景及其發展歷程,大資料給我們科學研究及思維模式帶來的影響,大資料的4v特徵及在科研、交通、通訊、醫療、金融、製造、體育、個性化生活、安全等領域的應用。同時也簡要介紹了大資料框架體系和關鍵技術,包括資料採集與預處理技術、資料儲存和管理技術、資料分析與挖掘技術、資料視覺化技術、資料安全保護技術、雲計算、物聯網和機器學習等技術。

第2章主要介紹了大資料平行計算框架hadoop平台,包括hadoop的專案**、發展歷程、主要用途、分布式儲存和平行計算基本原理,以及對hadoop平台核心元件(hdfs、mapreduce、zookeeper、yarn、hbase、hive、spark、mahout等)的簡要描述。

第二篇大資料儲存與管理篇:本篇著重介紹大資料儲存與管理基本概念和常用的大資料分布式檔案系統hdfs、大資料分布式資料庫系統hbase、大資料分布式資料倉儲系統hive,旨在幫助讀者正確理解大資料儲存與管理的核心概念及其相關軟體技術。本篇包括4章:

第3章主要介紹了大資料儲存與管理的基本概念和技術,包括資料管理技術發展回顧,大資料資料型別,大數分布式系統基礎理論,nosql資料庫的興起,以及與大資料儲存和管理密切相關的分布式儲存技術、虛擬化技術和雲儲存技術。

第4章主要介紹了大資料分布式檔案系統hdfs,包括hdfs的設計特點,體系結構和工作元件。闡述了hdfs檔案系統工作流程,分析了在hdfs下讀寫資料的過程。圍繞hdfs檔案系統操作,詳細介紹了hdfs檔案操作命令,並對hdfs api主要程式設計介面進行介紹,給出了程式設計例項。

第5章主要介紹了大資料分布式資料庫系統hbase,重點描述了hbase列式資料庫的邏輯模型和物理模型的基本概念,給出了hbase體系結構及其工作原理。結合例項介紹了操作hbase表及其資料的操作命令,並對hbase api主要程式設計介面進行介紹,給出了程式設計例項。

第6章主要介紹了大資料分布式資料倉儲系統hive,包括hive的工作原理和執行流程、hive的資料型別與資料模型,常用的hive sql語句及其操作示例,以及hive主要訪問介面等。

第三篇大資料採集與預處理篇:本篇著重介紹大資料採集與預處理技術,對常用大資料採集工具進行了簡單介紹。本篇包括2章:

第7章主要介紹了大資料採集與預處理相關技術,包括資料抽取、轉換和載入技術,資料爬蟲技術、資料清理、資料整合、資料變換和資料歸約的方法和技術。

第8章主要介紹了幾個常用的大資料採集工具,包括sqoop關係型大資料採集工具,flume日誌大資料採集工具和分布式大資料nutch爬蟲系統。

第四篇大資料分析與挖掘篇:本篇著重介了大資料計算模式,大資料mapreduce計算模型,大資料spark記憶體計算模型,以及大資料mapreduce基礎演算法和挖掘演算法,旨在幫助讀者全面理解大資料分析與挖掘的核心思想與程式設計技術。本篇包括5章:

第9章主要介紹了五種大資料計算模式,包括大資料批處理、大資料查詢分析計算、大資料流計算、大資料迭代計算、大資料圖計算。

第10章主要介紹了大資料mapreduce計算模型,包括mapreduce的由來、主要功能、技術特徵,mapreduce的模型框架和資料處理過程,mapreduce程式執行過程,以及mapreduce主要程式設計介面及wordcount例項分析。

第11章主要介紹了大資料spark計算模型,包括spark的產生、技術特徵,spark的工作流程與執行模式,以及spark主要訪問介面並給出了3種wordcount程式設計實現。

第12章主要介紹了大資料mapreduce基礎演算法,包括關係代數運算的mapreduce設計與實現,矩陣乘法的mapreduce設計與實現。

第13章主要介紹了大資料mapreduce挖掘演算法,包括大資料關聯規則apriori演算法的mapreduce設計與實現,大資料knn分類演算法的mapreduce設計與實現,大資料k-means聚類演算法的mapreduce設計與實現。

第五篇大資料平台hadoop實踐與應用案例篇:本篇著重介紹大資料hadoop平台的實踐操作,給出了大資料技術在開敞式碼頭繫泊纜力**中的應用,以及中科曙光xdata大資料平台架構、關鍵技術及其應用案例,旨在幫助讀者理解如何將大資料的方法和技術運用到實際專案需求中,促進大資料技術在各領域行業中的應用。本篇包括3章:

第14章主要介紹了hadoop大資料平台操作實踐,包括hadoop系統的安裝與配置詳細操作,hadoop平台檔案操作及程式執行命令,以及hadoop平台下程式開發方法和過程。

第15章主要介紹了大資料方法和技術在開敞式碼頭繫泊纜力**中的應用,給出了大資料繫泊纜力相似性查詢**方法,並基於hadoop大資料平台完成了繫泊纜力**的相似性查詢方法mapreduce設計與實現。

第16章主要介紹了中科曙光xdata大資料方法的架構及關鍵技術,包括曙光xdata大資料整合與資料治理元件、大資料儲存與資料計算元件、大資料分析與資料智慧型元件、大資料視覺化分析元件、大資料安全管控與管理運維元件,並給出了基於曙光xdata大資料平台的智慧型交通應用案例。

wenmingjie0702

雲計算與大資料 虛擬化技術

描述 虛擬化一般分為硬體級虛擬化 hardware level virtualization 和作業系統級虛擬化 os level virtualization 硬 件級虛擬化是執行在硬體之上的虛擬化技術,它的管理軟體也就是我們通常說的hypervisor 或者 virtual machine mo...

大資料 方法與技術

economist 的,一篇 mckinsey quarterly 的,和一篇 forbes 的。其實這三篇都是空話。通篇無非就是在講 1 資料真的很大 2 各行各業都要學會處理大資料。然而我真正關心的是 怎麼做 於是 另一篇文章 進入視野。不過最精彩的還是麥肯錫的 分析報告 其中最吸引我的是 方法...

大資料技術

如果沒有乙個好的開始,不妨試試乙個壞的開始吧。因為乙個壞的開始,總比沒有開始強。而完美的開始,則永遠都不會來到。資料採集傳輸主要技術 分為兩類,一類是離線批處理 另一類是實時資料採集和傳輸 離線批處理最有名的是sqoop 實時資料採集和傳輸最為常用的是flume和kafka sqoop 一款開源的離...