oltp和olap
傳統的資料庫系統都是oltp,只能提供資料原始的操作。不支援分析工作。
oltp系統::執行聯機事務和查詢處理。一般超市進銷存系統,功能:註冊,記賬,庫存和銷售記錄等等,
olap系統:資料分析與決策服務,組織不同格式資料,滿足不同使用者需求。
區別:面向性。oltp面向顧客,就是操作員,如超市收銀員,銀行櫃檯人員。olap面向市場,用於資料分析,分析人員包括資料分析員,做出決策的業務經理,或者策略制定部分。
資料內容:oltp當前資料。olap歷史資料的彙總與聚集。
資料庫設計:oltp用er模型和面向應用資料庫。olap 用星型或雪花模型,面向主題資料庫設計。
還有訪問模式:操作事務與唯讀的分析計算的區別。
等等多維資料模型:
資料立方體cube:
給定維度的每個子集產生乙個cuboid(稱為方體)。這樣可以在不同粒度上的彙總級別或分組(group by),來顯示資料,整體上方體的格成為cube。
最低層彙總的方體稱為基本方體(basecuboid)。出現某乙個維度上的彙總後,則為非基本方體。
彙總到最高層的資料稱為頂點方體(apexcuboid),如0-d方體,that』s to say,所有維度彙總到一起只剩乙個cuboid,不能再彙總了。
頂點方體是最高泛化的方體。基本方體是最低特殊化的方體。
粗細粒度是不同程度上的彙總,涉及操作:
上捲(roll up),**商稱之為上鑽drillup,沿著維度的概念分層向上
下鑽(drill down)沿著維度的概念分層向下,需找更細粒度的資料。
切片:固定某一維度的取值,抽取這一維度下的子集。
切塊:由多個維度上選擇多個取值,抽取其所對映的子立方體。
旋轉rotate: 也叫pivot數軸變換,簡單說,二維表中的行列轉置。到三維以上覆雜,不同數軸之間的位置變換。說的高大上叫資料的檢視角度轉變
概念分層:低層概念(如城市)對映到更高的層次概念(如國家)。從低到高叫泛化(generalize),從高到低叫特殊化(specialize)。
模式分層(schema hierarchy)概念分層為資料庫模式中屬性的全序或偏序。
集合分組分層(set-grouping hierarchy)給定維度的屬性值的離散化或分組。如年齡age屬性離散化為young、mid、old三個子集,分組group by ***的男女子集。
資料立方體的實現:
使用資料倉儲的模型是多維模型,目前經常的有:
星型模型:乙個大而全,且無冗餘的事實表(fact);以及不同分析維度上的維度表(dimension)。維度表圍繞事實表,通過每個維度自身的dimension key(所有可能範圍內的取值)關聯。
雪花模型:星型模型的進一步細化,即將其中包含多個值的維度表進行規範化的(就是將維度表包含的某個值提取出來,作為新的dimension表),以便減少冗餘。
事實星座模型(fact constellation)or 星系模式(galaxy schema):多個fact tableshare all dimesioms(共享維度表)。
比如我的設計的data warehouse。workbench
cube定義
dimension定義
一般的data warehouse 都是用fact constellation。
指標index
度量measure
維度災難(curse of dimensionality),當維度過多(特徵空間非常複雜),那麼維度之間的關聯計算就變得非常多,而維度概念分層會加重災難。反應在cube中,就是不同維度的計算就會產生巨大的資料,就是預計算cube中所有的方體(子cube),儲存空間是**似增長。n維會有2n個子cube,加上概念分層li,則方體總數
預計算:1不物化(no materialization)2全物化(full materialization)3部分物化(partial materialization)
OLAP基本概念
olap 聯機分析處理 olap online analytical procession 允許以一種稱為多維資料集的多維結構訪問來自商業資料來源 如資料倉儲 的經過聚合和組織整理的資料。olap會為關聯式資料庫帶來3個優點 持續的快速響應,基於元資料的查詢及電子 樣式的公式。主要優點是能夠提前計算...
網頁基本概念和工作原理
1.1 術語 客戶端 在計算機上執行並連線到網際網路的應用程式,如 chrome 或 firefox。其主要作用是進行使用者互動,並將其轉換為對另一台稱為 web 伺服器的計算機的請求。雖然我們通常使用瀏覽器訪問網路,但您可以將整個計算機視為客戶端 伺服器模型的客戶端。每個客戶端計算機都有乙個唯一的...
CaChe基本概念及工作原理
計算機中程式執行時所有的指令和資料都是從儲存器中取出來執行的。儲存器是計算機系統中的重要組成部分,相當於計算機的倉庫,用來存放各類程式及其處理的資料。因此儲存器的容量和效能應當隨著處理器的速度和效能的提高而通過提高,以保持系統效能的平衡。然而在過去的 20 多年中,隨著時間的推移,處理器和儲存器在效...