1.5 全書概覽
本書將較為全面地描述大資料分析的模型、技術、實現與應用。其中第2~7章介紹大資料分析模型,包括關聯分析模型、分類分析模型、聚類分析模型、結構分析模型和文字分析模型;第8~11章介紹大資料分析相關的技術,包括大資料預處理、特徵選擇和降維方法、面向大資料的資料倉儲和大資料分析演算法。第12~14章介紹三種用於實現大資料分析演算法的平台,分別是大資料計算平台、流式計算平台和大圖計算平台;第15~16章介紹兩類大資料分析的具體應用,分別講述社會網路和推薦系統。
第2章是大資料分析建模的基礎,介紹了大資料模型建立方法、支援大資料分析的基本統計量以及推斷統計和假設檢驗方法,為後面的大資料分析奠定理論基礎。
第3~5章介紹了多維資料分析模型。
第3章介紹關聯分析模型,用於分析變數之間的關聯關係。根據變數的型別(離散或者連續)可以用回歸或者關聯規則來描述關聯關係,因而這一章描述了這兩方面的模型。
第4章介紹分類分析模型,用於對資料進行分類。根據分類的策略介紹了基於統計的判別分析方法和基於人類學習行為模擬的機器學習方法。
第5章介紹聚類分析模型,與分類分析模型的有監督分析不同的是,聚類模型是無監督分析,在沒有訓練樣例的情況下進行分析。這一章中介紹了聚類分析的定義、類別、評價方法、計算方法概述以及應用。
第6章介紹半結構化資料(即圖資料)的分析模型,包括了幾類重要的圖分析模型,即最短路徑、鏈結排名、結構計數、結構聚類和社團發現。
第7章介紹非結構化資料(即文字)的分析模型,包括了幾類常用的文字分析模型,即tf-id模型、詞頻統計、plda、word2vec和分詞。
第8章和第9章從兩個不同角度介紹為大資料分析進行資料準備的技術。如果把輸入的資料看成一張表,第8章介紹從「行」的角度進行資料準備,即進行資料的抽樣、過濾、標準化、歸一化以及資料的清洗;第9章介紹從「列」的角度進行資料準備,即從大資料中選擇恰當的屬性進行分析。
第10章介紹面向大資料的資料倉儲系統,概述資料倉儲技術並介紹多種針對不同場景的資料倉儲系統。
第11章介紹大資料分析演算法。在概述大資料分析演算法的同時,介紹基於mapreduce程式設計模型的回歸演算法、關聯規則挖掘演算法、分類演算法和聚類演算法,分別和第3~5章中的模型相對應。
第12章介紹5種大資料計算平台,這些計算平台用於計算通用的計算任務,針對大資料volume特性提出,側重於面向大資料的高可擴充套件計算和高效率計算。大資料分析任務可以用這些平台實現。
第13章介紹4種流式計算平台,用於處理流式計算這類大資料分析計算任務,針對大資料velocity特性提出,側重處理源源不斷更新的大資料。增量大資料分析任務可以用這些平台實現。
第14章介紹5種大圖計算平台,用於處理大圖計算任務,面向大資料volume特性在大圖上實現高效計算,可用於實現大部分第6章中提出的大圖分析模型。
第15章介紹社交網路分析技術,這是目前大資料分析領域的熱點應用之一,除了介紹基本概念外,還介紹幾種不同角度提出的社交網路分析技術。
第16章介紹推薦系統,這是目前大資料分析創造價值的重要途徑,在介紹推薦系統基本概念的同時,介紹不同思路、不同物件的推薦系統,還結合第15章介紹社交網路中的推薦技術。
本書各章節的關係如圖1-1所示。
圖1-1 本書結構圖
資料分析常用工具包括r語言、spss等,一些傳統資料分析的教材中介紹了這些工具,本書不再贅述。本書將以阿里雲——?一種針對「大」資料分析的工具為平台進行介紹,該平台提供了支援大資料分析中資料管理的分析型資料庫、支援大資料分析中資料密集型計算的大資料計算服務以及一系列大資料分析所需要的演算法,例如特徵選擇演算法、機器學習演算法以及大資料視覺化功能。
小結本章概述了大資料和大資料分析的相關知識。首先在1.1節介紹了大資料的定義、應用背景和「4v」特徵,讓讀者對於大資料概念有更為清晰的認識。接下來,1.2節介紹了大資料的應用場景,從中可以看出大資料是無處不在的,並且對於政治、經濟、工業生產、科學研究等有著巨大的影響。1.3節介紹了大資料分析的定義和應用,大資料分析使得大資料體現出其特有的價值,也帶來了新的思維方式。1.4節討論了大資料分析中的技術和難點,介紹了大資料分析的過程,包括業務理解、資料理解、資料準備、建模、評估和部署,緊接著介紹了大資料分析涉及的一系列技術,包括資料採集、資料管理、基礎架構、資料理解和提取、統計分析、資料探勘和資料視覺化等。最後討論了大資料分析中的難點,包括可擴充套件性、可用性、領域知識的結合和結果的檢驗。
習題在我們身邊有哪些大資料?在這些大資料上有哪些分析任務?
比較「分析」「機器學習」和「資料探勘」的異同。
比較電子商務和工業生產中大資料分析任務的異同。
試論述大資料分析對大資料管理提出的新要求。
大資料分析對技術提出了何種挑戰?根據你的經驗論述這些挑戰應當如何應對。
大資料分析中的「分析」和下面哪句話中的「分析」含義最相近?
(1) 「又於帝前聚公尺為山谷,指畫形埶,開示眾軍所從道徑往來,分析曲折,昭然可曉。」(《後漢書·馬援傳》)
(2) 「御史司憲崔沂劾奏:『彥卿殺人闕下,請論如法。』帝命彥卿分析。」(《資治通鑑·後梁太祖開平四年》)
(3) 「於時內慢神器,外侮戎狄。君子橫流,庶萌分析。」(《宋書·謝靈運傳》)
(4) 「臣聞《詩》、《書》、《禮》、《樂》,定自孔子;發明章句,始於子夏。其後諸家分析,各有異說。」(《後漢書·徐防傳》)
有人說「大資料分析更注重關聯關係而並非因果關係」,請辨析這句話。
你認為「分析」的反義詞是什麼?為什麼?
試論述視覺化在大資料分析過程中可能起到的作用。
《大資料分析原理與實踐》一一導讀
本書的緣起與成書過程 大資料經過分析能夠產生 值,這無疑已在大資料火爆的今天成為共識,從而使得大資料分析在 大資料 涉及的領域 如工業 醫療 農業 教育等 有了廣泛的應用。大資料分析的相關知識不僅是大資料行業的從業人員應該必備的,也是和大資料相關的各行各業的從業者需要了解的。然而,人們對大資料分析的...
《大資料分析原理與實踐》一一第3章 關聯分析模型
關聯分析用於描述多個變數之間的關聯。如果兩個或多個變數之間存在一定的關聯,那麼其中乙個變數的狀態就能通過其他變數進行 關聯分析的輸入是資料集合,輸出是資料集合中全部或者某些元素之間的關聯關係。例如,房屋的位置和房價之間的關聯關係或者氣溫和空調銷量之間的關係。關聯分析主要包括如下分析內容 1 回歸分析...
《大資料分析原理與實踐》 習題
在我們身邊有哪些大資料?在這些大資料上有哪些分析任務?比較 分析 機器學習 和 資料探勘 的異同。比較電子商務和工業生產中大資料分析任務的異同。試論述大資料分析對大資料管理提出的新要求。大資料分析對技術提出了何種挑戰?根據你的經驗論述這些挑戰應當如何應對。大資料分析中的 分析 和下面哪句話中的 分析...