為什麼寫作本書
阿里巴巴是國內最早使用greenplum作為資料倉儲計算中心的公司。從2023年到2023年greenplum都是阿里巴巴b2b最重要的資料計算中心,它替換掉了之前的oracle rac,有非常多的優點。
greenplum的效能在資料量為tb級別時表現非常優秀,單機效能相比hadoop要快好幾倍。
greenplum是基於postgresql的乙個完善的資料庫,在功能和語法上都要比hadoop上的sql引擎hive好用很多,對於普通使用者來說更加容易上手。
greenplum有著完善的工具,相比hive,整個體系都比較完善,不需要像hive一樣花太多的時間和精力進行改造,非常適合作為一些大型的資料倉儲解決方案。
greenplum能夠方便地與hadoop進行結合,可直接把資料寫在hadoop上,還可以直接在資料庫上寫mapreduce任務,並且配置簡單。
從2023年畢業加入阿里巴巴b2b的資料倉儲起,我就開始接觸greenplum資料庫,並有幸維護了一年多的greenplum資料庫,積累了很多資料庫的相關知識。greenplum在國內的應用相對比較少,尤其是網上資料相當匱乏。在使用greenplum的過程中,阿里巴巴遇到了很多困難,也積累了很多寶貴經驗。
由於學習資料的匱乏,我和**有了將阿里巴巴使用greenplum的一些經驗技巧匯聚成書的想法,這樣既總結和沉澱了自身知識,同時也可以給國內使用greenplum的同行們提供一點幫助。
第1章 greenplum簡介
1.1 greenplum的起源和發展歷程
1.2 oltp與olap
1.3 postgresql與greenplum的關係
1.4 greenplum特性及應用場景
1.5 小結
第2章 greenplum快速入門
2.1 軟體安裝及資料庫初始化
2.2 安裝greenplum的常見問題
2.3 暢遊greenplum
2.4 小結
第3章 greenplum實戰
3.1 歷史拉鍊表
3.2 日誌分析
3.3 資料分布
3.4 資料壓縮
3.5 索引
3.6 小結
中篇 進 階 篇
第4章 資料字典詳解
4.1 oid無處不在
4.2 資料庫集群資訊
4.2.1 gp_configuration和gp_segment_configuration
4.2.2 gp_id
4.2.3 gp_configuration_history
4.2.4 pg_filespace_entry
4.2.5 集群配置資訊表轉化
4.3 常用資料字典
4.3.1 pg_class
4.3.2 pg_attribute
4.3.3 gp_distribution_policy
4.3.4 pg_statistic和pg_stats
4.4 分割槽表資訊
4.4.1 如何實現分割槽表
4.4.2 pg_partition
4.4.3 pg_partition_rule
4.4.4 pg_partitions檢視及其優化
4.5 自定義型別以及型別轉換
4.6 主、備節點同步的相關資料字典
4.7 資料字典應用示例
4.7.1 獲取表的字段資訊
4.7.2 獲取表的分布鍵
4.7.3 獲取乙個檢視的定義
4.7.4 查詢comment(備註資訊)
4.7.5 獲取資料庫建表語句
4.7.6 查詢表上的檢視
4.7.7 查詢表的資料檔案建立時間
4.7.8 分割槽表總大小
4.7.9 如何分析資料字典變化
4.7.10 獲取資料庫鎖資訊
4.8 gp_toolkit介紹
4.9 小結
Greenplum企業應用實戰
很好的分析參考案例 greenplum簡單效能測試與分析 名詞解釋mpp mpp 是將任務並行的分散到多個伺服器和節點上,在每個節點上計算完成後,將各自部分的結果彙總在一起得到最終的結果。使用注意點 1 資料分布方式包括 hash分布 隨機分布。hash分布 指定乙個或者多個分布鍵,distribu...
《Greenplum企業應用實戰》一2 4 小結
本章主要介紹了greenplum的安裝和部署,以及一些簡單的基本的資料庫操作及使用注意點,力求使讀者可以快速了解greenplum的特性,迅速上手,後續的章節會詳細介紹greenplum的一些高階特性以及管理和優化。與普通的postgresql資料庫的最大不同就是,greenplum是分布式資料庫,...
企業實戰 企業FTP搭建
提前關閉selinux 和firewalld防火牆 1.安裝vsftp軟體包 yum y install vsftpd 2.啟動vsftpd伺服器 systemctl restart vsftpd systemctl enable vsftpd 3.檢查服務是否正常啟動 ps ef grep vsf...