《大資料分析原理與實踐》一一導讀

2021-09-23 09:41:21 字數 1160 閱讀 7249

本書的緣起與成書過程

大資料經過分析能夠產生**值,這無疑已在大資料火爆的今天成為共識,從而使得大資料分析在「大資料+」涉及的領域(如工業、醫療、農業、教育等)有了廣泛的應用。大資料分析的相關知識不僅是大資料行業的從業人員應該必備的,也是和大資料相關的各行各業的從業者需要了解的。

然而,人們對大資料分析的解讀有多個不同方面。從「分析」的角度解讀,大資料分析可以看作統計分析的延伸;從 「資料」的角度解讀,大資料分析可以看作資料管理與挖掘的擴充套件;從「大」的角度解讀,大資料分析可以看作資料密集高效能計算的具體化。

而大資料分析的有效實施也需要多個方面的知識。從分析的角度來講,需要統計學、資料分析、機器學習等方面的知識;從資料處理的角度來講,需要資料庫、資料探勘等方面的知識;從計算平台的角度來講,需要並行系統和平行計算的知識。

上述多樣化造成了目前大資料分析的教材和參考書的多樣化:有些書重點介紹統計學或者機器學習知識,突出「分析」;有些書重點介紹實現平台和技術,突出「大」;有些書重點介紹資料探勘知識及其應用,突出「資料」。筆者認為,這三類知識對大資料分析都是必不可少的,於是試圖編寫一本教材來融合這三類知識,給讀者展示乙個相對廣闊的大資料分析圖景。

也正是因為解讀的角度和所需知識的多樣化,本書的成書過程也比較曲折。在成書的過程中,筆者對大資料分析的認識也在不斷加深,因而在編寫過程中幾次變換結構和體例。由於筆者主要從事資料相關工作,所以起初以大資料分析演算法和相關技術為主,對資料分析模型方面的知識只是一筆帶過。在和業內人士的交流中發現,對於很多讀者來說,了解分析模型可能更重要,因為很多分析演算法和大資料分析所需的技術都有平台實現,分析模型卻需要了解業務的人來建立,於是筆者增加了較多資料分析模型方面的內容。而後通過和阿里雲的合作,筆者又進一步了解了大資料分析的需求,於是增加了資料預處理等內容,並基於阿里雲的技術和平台對書中的一些內容做了實現。這就是本書現在的版本

第1章 緒  論 1.1 什麼是大資料

1.2 **有大資料

1.3 什麼是大資料分析

1.4 大資料分析的過程、技術與難點

1.5 全書概覽

第2章 大資料分析模型

2.1 大資料分析模型建立方法

2.2 基本統計量

2.3 推斷統計

第3章 關聯分析模型

3.1 回歸分析

3.2 關聯規則分析

3.3 相關分析

3.4 小結

《大資料分析原理與實踐》一一1 5 全書概覽

1.5 全書概覽 本書將較為全面地描述大資料分析的模型 技術 實現與應用。其中第2 7章介紹大資料分析模型,包括關聯分析模型 分類分析模型 聚類分析模型 結構分析模型和文字分析模型 第8 11章介紹大資料分析相關的技術,包括大資料預處理 特徵選擇和降維方法 面向大資料的資料倉儲和大資料分析演算法。第...

《大資料分析原理與實踐》一一第3章 關聯分析模型

關聯分析用於描述多個變數之間的關聯。如果兩個或多個變數之間存在一定的關聯,那麼其中乙個變數的狀態就能通過其他變數進行 關聯分析的輸入是資料集合,輸出是資料集合中全部或者某些元素之間的關聯關係。例如,房屋的位置和房價之間的關聯關係或者氣溫和空調銷量之間的關係。關聯分析主要包括如下分析內容 1 回歸分析...

《大資料分析原理與實踐》 習題

在我們身邊有哪些大資料?在這些大資料上有哪些分析任務?比較 分析 機器學習 和 資料探勘 的異同。比較電子商務和工業生產中大資料分析任務的異同。試論述大資料分析對大資料管理提出的新要求。大資料分析對技術提出了何種挑戰?根據你的經驗論述這些挑戰應當如何應對。大資料分析中的 分析 和下面哪句話中的 分析...