網易雲社群
資料倉儲作為企業提供決策支援而構建的整合化資料環境,本身並不產生或者消費資料,基本架構包含的是資料流入流出的過程,首先放上一張資料倉儲的架構圖。資料倉儲作為中間整合化資料管理的乙個平台,底層有多種資料**,流入資料倉儲之後對上層應用開放。
1、分析業務需求,確定資料倉儲主題
資料模型的建立依賴資料倉儲主題的確定,在搭建資料倉儲之前,首先就是要充分了解業務部門的問題需求,明確我們所要建立的資料倉儲真正可以解決的問題,在多次溝通的前提下,可以準確的確定系統能夠實現的功能。在這個過程中,基於雙方理解問題的不同,還需要我們對需求做出一些原型的演示,避免理解上的分歧。
需要做到包括:從業務方需求中提取出重要的業務資料主題,並對業務資料主題進行詳細的解釋;對提取出的業務資料主題進行主題域的劃分,並對主題域進行詳細的解釋;根據主題域的劃分,對內部的組織結構和業務關係細節化,構建出主題域的概念模型。
2、構建邏輯模型
在概念模型的基礎上,對其進行進一步的細化和分解,通過實體和實體之間的關係描述業務的需求和系統實現的技術領域。邏輯模型的構建在資料倉儲的實施中最為重要,是業務需求人員和技術人員進行溝通的橋梁和平台,能夠直接反映業務部門實際的需求和對業務的規劃,同時對下面物理模型的構建也具有指導意義。邏輯模型通過實體與實體之間的關係勾勒出了整個業務部門的資料藍圖和規劃。
邏輯模型主要關注細節性的業務規則,同時也需要解決每個主題域包含的概念範疇和跨主題域的整合和共享問題,構建的步驟一般包括:分析需求,列出需要分析的主題,明確需求目標、維度指標、分析的指標、分析的方法、資料的**以及需要關注的物件等;選擇使用者感興趣的資料,通過業務需求將需要分析的指標分離抽取出來,轉換為實體;在實體中增加時間戳屬性;考慮粒度層次的劃分,粒度決定了資料倉儲的實現方式、效能、靈活性以及資料倉儲的資料量;在粒度層次劃分的基礎上,進行關係模式的定義,關係模式一般採取第三正規化的特點進行定義;同時在邏輯模型的基礎上對實體的屬性、屬性的值域等資訊進行明確、完善和細化,保證真實的反映業務的邏輯關係和業務的規則。
3、邏輯模型轉換為物理模型
基於邏輯模型,接下來就是為應用環境選擇乙個合適的物理結構,包括合適的儲存結構以及合適的儲存方法。將邏輯模型轉換為物理模型主要包括:實體名轉換為表名;屬性名轉換為列名,並且確定列的屬性;在物理模型的建立過程中,必須要對列的屬性進行明確,包括列名、資料型別、是否是空值以及長度等。確定物理模型之後,對於資料的存放位置和儲存空間的分配等也需要進行規劃。
4、資料來源接入
在資料倉儲的建立之前,需採集底層多種資料來源資料,明確資料來源中的資料種類,採用合適的工具。比如,flume ng作為實時日誌收集系統,支援在日誌系統中定製各類資料傳送方,用於收集資料,同時,對資料進行簡單處理,並寫到各種資料接收方;ndc,netease data canal,直譯為網易資料運河系統,可以實現結構化資料庫的資料實時遷移;sqoop可以將關係型資料庫中的資料匯入到平台中;logstash作為開源的服務端資料處理管道,也可以輕鬆的將日誌、web應用等資料採集到平台中。
5、資料儲存清洗和轉換
對資料進行清洗和轉換,保證進入到資料倉儲中的資料的一致性。結合業務需求,採用合適的資料清洗轉換工具。
6、對接bi,資料展示
為業務部門選擇合適的工具實現對資料倉儲中的資料進行分析的目的,正確清晰的展現使用者的功能需求。
資料倉儲搭建成功之後,還需對其安全性、備份恢復等方面進行管理。
利益相關:網易雲打造的大資料平台,能夠提供更好的建設方案,歡迎免費試用。
資料倉儲搭建
1.資料倉儲需求分析 1.1主題分析 確定主題 使用者從哪些角度來分析資料 主題 比如銷售主體 指標 維度 粒度 1.2資料分析 了解資料情況,是否可以支撐主題 資料來源分析 資料來源的資料表的關係,資料表的內容 資料量分析 記錄和字段的量進行乙個統計分析 資料質量分析 正確性分析 一致性分析 規範...
如何低成本搭建企業資料倉儲?
在高需求下,傳統倉庫必然面臨著挑戰 資料量增長過快導致執行效率下降 資料整合代價大 無法處理多樣性的資料 資料探勘等深度分析能力欠缺。自建集群,耗資上百萬,並且還需要專業人員運維。從2012年開始,阿里集團將之前在hadoop上的資料體系搬遷到阿里雲數加maxcompute 原odps 並完成了資料...
資料倉儲怎麼搭建?
資料倉儲怎麼搭建?在網上一搜,有太多的大廠中廠數倉完整實踐的文章,已經能把數倉由哪些組成,各部分如何建設,重點難點和解決方法都講的很清楚。我接觸到的大多數數倉開發者對於資料倉儲都有乙個較為完整的了解,各個部分也都能說得頭頭是道。可另一方面,從我了解到的片面的行業資訊來說,除了在網上發文章的那些公司,...