環節二:ods層的設計
運算元據儲存ods(operation data storage)是乙個整合了來自不同資料庫資料的環境。其目的是為終端使用者提供一致的企業資料整合檢視。它可以幫助使用者輕鬆應對跨多個商業功能的操作挑戰,是面向主題的、整合的、近實時的資料儲存。
設計ods層的目的在於改善了對關鍵運算元據庫的訪問,使用者能獲得收益、客戶等主題的企業級完整檢視,有利於更好地通觀全域性。近實時的資料儲存提供了查詢與服務能力,並以更高的效能生成操作報告。設計ods的核心是實現焦點主題全域性試圖應用,如企業的客戶管理系統,可以建立以客戶為中心的ods客戶主題檢視,向上層提供高效的服務。而對於話費結算則採取了從綜合結算系統中直接抽取到資料倉儲的方式,抽取週期為結算週期,能完全滿足決策分析的時間窗要求。
環節三:etl過程的設計
資料抽取、轉換和載入,是資料倉儲實現過程中,資料由資料來源系統向資料倉儲載入的主要方法,整個資料處理過程如下:
資料抽取 從資料來源系統抽取資料倉儲系統所需的資料,資料抽取採用統一的介面,可以從資料庫抽取資料,也可以從檔案抽取。對於不同資料平台、源資料形式、效能要求的業務系統,以及不同資料量的源資料,可能採用的介面方式不同,為保證抽取效率,減少對生產運營的影響,對於大資料量的抽取,採取「資料分割、縮短抽取週期」的原則,對於直接的資料庫抽取,採取協商介面表的方式,保障生產系統資料庫的安全。
資料轉換 資料轉換是指對抽取的源資料根據資料倉儲系統模型的要求,進行資料的轉換、清洗、拆分、彙總等,保證來自不同系統、不同格式的資料和資訊模型具有一致性和完整性,並按要求裝入資料倉儲。
資料載入 資料載入是將轉換後的資料載入到資料倉儲中,可以採用資料載入工具,也可以採用api程式設計進行資料載入。資料載入策略包括載入週期和資料追加策略,對於電信企業級應用,採用對etl工具datastage進行功能封裝,向上提供監控與排程介面的方式。資料載入週期要綜合考慮經營分析需求和系統載入的代價,對不同業務系統的資料採用不同的載入週期,但必須保持同一時間業務資料的完整性和一致性。
環節四:倉庫模型設計
由於經營分析需求的不斷變化,資料倉儲中資料的儲存必須採用主題分域的方式,及盡可能小的業務單元進行資料的組織和儲存,以滿足資料倉儲的靈活性。此外,任何乙個資訊系統都具有整體性、結構性、層次性、相對性、可變性,資料倉儲的目標邏輯結構的設計要體現這些特徵。
例如,某電信運營商的業務可以按照不同的主題域分為八類:客戶、賬務、資源、服務、客服、營銷、服務使用、結算。客戶主題包含與客戶相關的基本資訊,如客戶的自然屬性(姓名、年齡、職業等)、分類資訊(現有客戶、潛在客戶、大客戶等)、重要屬性資訊(信用度、忠誠度、消費層次等)。賬務主題中包含了與客戶相關的費用資訊,如明細賬單、綜合賬單、賬本、賬戶、付費記錄、銷賬流水等;資源主題中包含網路資源和服務資源資訊及占用情況;服務主題包含產品、**、資費與優惠規則等的資訊;客服主題包含與客戶服務相關的部門資訊、流程資訊、分類資訊等; 營銷主題包含銷售機會、營銷渠道、**活動等相關資訊;服務使用主題描述客戶購買和使用電信服務產品的資訊,包括使用者、服務使用記錄、清單等;結算主題包含結算清單、結算明細賬單、合作服務方等資訊。對於主題的建模採用星型結構,以事實表或概要表加相關維表構成。
環節六:專題資料探勘
電信企業在長期資訊化建設過程中積累了大量業務運營資料和業務管理資料,一般的企業資料量已超過tb級。市場的激烈競爭和管理的複雜性,決定了企業需要對客戶關係、市場營銷、產品工程、投資分析等方面的歷史資料進行提取與分析,將資料轉化為有用的資訊。資料探勘一般用於在海量資料集中發現間接、隱藏、新穎的規律,資料探勘技術的優勢在於,通過對資料集進行有限步驟的採集、整理、分析、推理、比較等分析手段,來揭露埋藏資料內部的有用資訊。資料探勘常用的演算法包括:關聯規則、聚類檢測、決策樹、神經網路、遺傳演算法、支援向量機等,在sas、im8等資料探勘工具中支援的演算法包括決策樹、聚類分析、神經網路、回歸分析等。
以電信經營資料分類與**分析資料探勘專題為例,分類包括客戶分類、網元分類等; **包括客戶發展分析與**、業務量發展分析與**、客戶流失分析與**、營銷管理與銷售機會分析與**、市場競爭分析與**、大客戶分析與**等。
資料倉儲(六) 資料倉儲的概念設計
在資料集市設計中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。資料驅動方法包括 基於實體 關係模式的設計 基於關係模式的設計 基於xml模式的設計。概念型實體 關係模式比關係型...
資料倉儲設計
資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...
模式屬性資料倉儲(六) 概念設計
ps 今天上午,非常鬱悶,有很多簡略基礎的問題搞得我有些迷茫,哎,幾天不寫就忘。目前又不當coo,還是得用心記 哦!在資料集市計畫中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區分在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響觀點計畫的方法...