1. yahoo
資料倉儲的整體架構
yahoo資料倉儲在基礎架構上由hadoop集群和oracle集群組成,hadoop集群是乙個計算平台,完成所有etl資料處理過程;oracle集群只是乙個查詢環境。
資料通過data highway從源系統載入進入資料倉儲的ods層,ods層資料保持與源系統資料結構一樣。edw資料層並沒有嚴格意義的資料層次的邏輯細分,它可能有 多層的etl加工過程;多層的資料儲存。這乙個層資料主要採用維度建模的方法,根據應用需求建立資料模型。資料採用列式儲存的資料結構儲存。
資料經過加工處理完成後,資料將會同步到oracle的集群中用做資料查詢。yahoo用oracle做查詢環境,他們的大量採用了基於時間range分 區和hash子分割槽的方式來提公升查詢響應效能(類似與greenplum的方式)。資料採用了壓縮技術,同時基於壓縮和讀取的方式上oracle官方為他 們定製了一些改進,從而獲取更好的讀取io和壓縮能力。
mstr報表工具連線oralce完成大部分報表查詢功能,同時,如果要查詢最明細的資料,工具會連線到hadoop集群上,通過建立一些臨時表來滿足查詢功能。
2. yahoo資料倉儲建模方法
yahoo資料倉儲建模基本上採用維度建模的思想,他們強調一致的維度在保持資料倉儲模型的一致性上的作用。他們會花一定的時間去識別每個新進入倉庫的資料表,並了解它的業務規則和資料屬性,由資料架構師完成對資料整合的設計工作。
yahoo也建立一些稀疏的寬表,它的基於每個日誌訪問記錄表的寬表就有上千個字段。
3 . yahoo資料倉儲的團隊成員構成
yahoo團隊主要由dhw配置人員,etl開發人員、資料架構師、bi分析人員和pm人員組成。他們介紹他們團隊大概有30個人,應該只有乙個pm而且投入也是50%,從這看來他們的應用需求應該比我們b2b少很多。
4. data architect的職責
資料架構師基本上負責整個全域性資料倉儲的模型,表的設計。資料架構師對掌控整個倉庫的表結構。同時,yahoo經常從外面收購不同的公司,很大乙個職責和任務是需要整合新的據源進入資料倉儲的模型中。
5. yahoo實時倉庫的現狀
yahoo的實時倉庫應用較少,應用點就是廣告的結算使用,按時間視窗,採用oracle的logminer捕獲準實時變化資料,通過事件觸發後續的etl處理過程。
6. yahoo對資料倉儲人力資源的使用原則
yahoo的資料倉儲人力資源不在業務方,而由自己控制。他們將商業價值和對資料倉儲整體影響排在前面兩個最重要的位置。當出現資源衝突的時候,不由業務方的獨自利益為導向。
資料倉儲簡介
資料倉儲領域的權威w h inmon給出了資料倉儲的乙個簡短而全面的定義 資料倉儲是乙個面向主題 整合 時變 非易失的資料集合,是支援管理部門的決策過程。根據該定義,資料倉儲具備以下四個關鍵特徵 1.1 面向主題 subject oriented 的資料集合 資料倉儲通常圍繞一些主題,如 產品 銷售...
資料倉儲簡介
資料倉儲 引用 資料倉儲自上而下的框架之後,資料的同步,資料的儲存計算,資料的計算,資料的分析,資料的展現,這些階段上建設資料倉儲有什麼樣的解決方案呢?首先是資料同步 資料來源 ods層 etl工具的選擇 主流的etl工具有informatica,datastage,kettle 其次是資料的儲存計...
資料倉儲簡介 概況
1 資料倉儲的定義 資料倉儲是乙個面向主題的 整合的 穩定的 反映歷史變化的 隨著時間的流逝發生變化的資料集合。它主要支援管理人員的決策分析。資料倉儲收集了企業相關內部和外部各個業務系統資料來源 歸檔檔案等一系列歷史資料,最後轉化成企業需要的戰略決策資訊。2 資料倉儲的特點 3 資料倉儲和資料庫的區...