《HAWQ資料倉儲與資料探勘實戰》內容簡介 前言

2021-08-19 18:50:51 字數 2178 閱讀 3115

內容簡

介apache hawq是乙個

sql-on-hadoop

產品,它非常適合用於hadoop平台上快速構建資料倉儲系統。

hawq

具有大規模並行處理、完善的

sql相容性、支援儲存過程和事務、出色的效能表現等特性,還可與開源資料探勘庫

madlib輕鬆整合,從而使用

sql就能進行資料探勘與機器學習。

本書內容分技術解析、實戰演練與資料探勘三個部分共27章。技術解析部分說明

hawq

的基礎架構與功能特性,包括安裝、連線、物件與資源管理、查詢優化、備份恢復、高可用性

等。實戰演練部分用乙個完整的示例,說明如何使用hawq取代傳統資料倉儲,包括

etl處理、自動排程系統、維度表與事實表技術、

olap

與資料的圖形化表示等。資料探勘部分用例項說明

hawq

與madlib整合,實現降維、協同過濾、關聯規則、回歸、聚類、分類等常見資料探勘與機器學習方法。

本書適合資料庫管理員、大資料技術人員、hadoop技術人員、資料倉儲技術人員,也適合高等院校和培訓機構相關專業的師生教學參考。前言

從bill inmon在2023年提出資料倉儲的概念,至今已有27的時間。在這期間人們所面對的資料,以及處理資料的方法都發生了翻天覆地的變化。隨著網際網路和移動終端等應用的普及,執行在單機或小型集群上的傳統資料倉儲不再能滿足資料處理要求,以hadoop及其生態圈元件為代表的新一代分布式大資料處理平台逐漸流行。

儘管大多數人都在討論某種技術或者架構可能會勝過另一種,而我更傾向於從「hadoop與資料倉儲密切結合」這個角度來**問題。一方面企業級資料倉儲中已經積累了大量的資料和應用程式,它們仍然在決策支援領域發揮著至關重要的作用;另一方面,傳統資料倉儲從業人員的技術水平和經驗也在逐步提公升。如何才能使積累的大量歷史資料平滑過渡到hadoop上,並讓熟悉傳統資料倉儲的技術人員能夠有效地利用已有的知識,可以在大資料處理平台上一展身手,才是乙個亟待解決的問題。

雖然伴隨著大資料的概念也出現了以mongodb、cassandra為代表的nosql產品,但不可否認,sql仍然是資料庫、資料倉儲中常使用的開發語言,也是傳統資料庫工程師或dba的必會語言,從它出現至今一直被廣泛使用。首先,sql有堅實的關係代數作為理論基礎,經過幾十年的積累,查詢優化器也已經相當成熟。再者,對於開發者,sql作為典型的非過程語言,其語法相對簡單,但語義卻相當豐富。據統計95%的資料分析問題都能用sql解決,這是乙個相當驚人的結論。那麼sql怎樣才能與hadoop等大資料技術結合起來,既能復用已有的技能,又能有效處理大規模資料呢?在這樣的需求背景下,近年來湧現出越來越多的sql-on-hadoop軟體,比如從早期的hive到spark sql、impala、kylin等,本書所論述的就是眾多sql-on-hadoop產品中的一員——hawq。

我最初了解到hawq是在bdtc 2016大會上,apache hawq的創始人常雷博士介紹了該專案。他的演講題目是「以hawq輕鬆取代傳統資料倉儲」,這正是我的興趣所在。hawq支援事務、效能表現優良,關鍵是與sql的相容性非常好,甚至支援儲存過程。對於傳統資料倉儲的開發人員,使用hawq轉向大資料平台,學習成本應該是比較低的。我個人認為hawq更適合完成hadoop上的資料倉儲及其資料分析與挖掘工作。

一年來,我一直在撰寫hawq相關的文章和部落格,並在利用hawq開發hadoop資料倉儲方面做了一些基礎的技術實踐,本書就是對這些工作的系統歸納與總結。全書分為技術解析、實戰演練、資料探勘三個部分,共27章。

技術解析部分說明hawq的基礎架構與功能特性,包括安裝部署、客戶端與伺服器連線、資料庫物件與資源管理、查詢優化、備份恢復、高可用性等。

實戰演練部分通過乙個簡單而完整的示例,說明使用hawq設計和實現資料倉儲的方法,包括初始和定期etl處理、自動排程系統、維度表與事實表技術、聯機分析處理與資料的圖形化表示等。這部分旨在將傳統資料倉儲建模、sql開發的簡單性與大資料技術相結合,快速、高效地建立可擴充套件的資料倉儲及其應用系統。

資料探勘部分結合應用例項,討論將hawq與madlib整合,madlib是乙個開源機器學習庫,提供了精確的資料並行實現、統計和機器學習方法,可以對結構化和非結構化資料進行分析。它的主要目的是可以非常方便地載入到資料庫中,擴充套件資料庫的分析功能。madlib僅用sql查詢就能做簡單的資料探勘與機器學習,實現矩陣分解、降維、關聯規則、回歸、聚類、分類、圖演算法等常見資料探勘方法。這也是hawq的一大亮點。

因為水平有限,錯漏之處在所難免,希望讀者批評指正。

編者2023年12月

資料探勘 資料倉儲

雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多。資料倉儲的主要目標是增加決策過程的 情報 和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能 dsf 其中的每個資料單元都...

資料倉儲(OLAP OLTP)與資料探勘

一 挖掘資料存在問題 1 把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的 統一的資料介面,目的是能在不同的資料上高效執行查詢。2 分析收集到的資料發現可以成為商務決策基礎的資訊或知識。資料探勘 目標...

資料倉儲原理與實戰

資料倉儲誕生背景 資料倉儲概述 mpp 分布式架構 資料倉儲技術實現 常見資料倉儲產品 資料倉儲架構設計 etl流程 資料積存功能之ods層 資料分析功能之dwd dws ads層 不同系統的建模方法 rolap維度模型 molap建模方法 多維分析 表的分類 etl同步策略 任務排程 專案 資料概...