一、度量、指標、指標器
度量和維度構成olap的主要概念,對於在事實表或者乙個多維立方體裡面存放的數值型的、連續的字段,就是度量。這符合上面的意思,有標準,乙個度量字段肯定是統一單位,例如元、戶數。如果乙個度量字段,其中的度量值可能是歐元又有可能是美元,那這個度量沒法彙總。
在olap中還有計算度量的說法,用乙個總費用除以使用者數,得到每戶平均費用。但這究竟還算不算度量了呢?這已經不是原本意義上的度量了,只是為了稱呼方便而已。
這就得說到指標,英文的metric。在績效管理軟體裡面,通常是有這個概念的。其定義可表述為"它是表示某種相對程度的值"。區別於度量概念,那是一種絕對值,尺子量出來的結果,彙總出來的數量等。而指標至少需要兩個度量之間的計算才能得到,例如arpu,用收入比上使用者數,例如收入增長率,用本月收入比上上月收入。當然可能指標的計算還需要兩個以上的度量。
而indicator的字面意思為指示器,在kpi中,最後乙個i就是它,但是用中文稱呼它的時候,總是叫"關鍵績效指標",而沒有叫做"指標器",也就造成一些混亂。
我們身邊充當指示器的有:紅綠燈,提醒行人車輛是否等待或通行;監控室裡的警報燈,提醒哪兒出現異常;汽車儀錶盤,提醒駕駛員油是否足夠,速度如何。它們起到的作用是傳遞一種巨集觀的資訊,促使人的下一步行動。紅燈停綠燈行;看到警報亮起要趕緊派人檢視。目前常見的企業績效管理軟體中,儀錶盤(有的地方稱作駕駛艙)的展示介面也是必不可少,正是用這種直觀而比較有象徵性的指示器反映企業運營狀況。
可以設想提出kpi的初衷,是希望企業通過一些粗略(非細節)的資訊(而非資料)來為下一步的決策作出依據。導致不同的決策行為必定是離散的輸入,最簡單的就是乙個開關,是或不是(例如警報燈)。如果說度量和指標是定量話,指示器就是一種定性的。
然而,這些系統中的kpi並非完全上面提到的指示器,很多系統建設稱為度量系統或是指標系統。而對乙個企業,哪些指標能夠充分反映經營活動,這也是需要精心制定的,而不是讓技術部門提出一堆似是而非的指標名稱,諸如在網使用者數、收入之類,這不是kpi。
三者區別的說明:
"度量"
是絕對的定量值;
"指標"
是基於兩個或更多度量計算得出的相對值;
"
指示器"
是基於度量或指標,並依據某個基準值得到的定性結果。
二、維度中層與級的區別
在olap中定義維度時,層(hierarchy)與級(level)是比較讓人迷惑的兩個概念。簡單的說,層就是一種維度成員的分類方式,級就是維度成員之間或維度成員屬性之間的包含關係。
乙個維度至少要包含乙個層。以[產品]維度為例,可以建立乙個[產地]層,可以建立乙個[廠商]層,也可以建立乙個[分類]層。在ssas中,可以不定義層,此時維度的預設層為allmembers層。在mondrian的schema定義工具中,則要求全部手工定義。
乙個層至少要包含乙個級,以[產品]維度為例,[產地]層可以包含省-市-縣三個級別,[分類]層可以包含日用品-洗滌用品-洗衣粉三個級別。級別的定義有2種方式,一種是在乙個維度成員的屬性之間定義,例如[產品]維度的每個成員都有產品系列、大類、小類三個屬性,這樣定義[分類]層的級別時,直接利用這三個屬性即可,即:每個級別都是乙個成員的乙個屬性。另一種是在維度成員之間進行,例如hr中的上下級關係,每個級別都是乙個具體的維度成員,即:每個級別都是乙個或多個維度成員,每個級都包含多個屬性。後一種級別在資料庫中往往是以遞迴的方式進行儲存的。
三、資料倉儲相關術語
資料倉儲:資料倉儲是乙個支援管理決策的資料集合。資料是面向主題的、整合的、不易丟失的並且是時變的。資料倉儲是所有操作環境和外部資料來源的快照集合。它並不需要非常精確,因為它必須在特定的時間基礎上從操作環境中提取出來。
資料集市:資料倉儲只限於單個主題的區域,例如顧客、部門、地點等。資料集市在從資料倉儲獲取資料時可以依賴於資料倉儲,或者當它們從作業系統中獲取資料時就不依賴於資料倉儲。
事實:事實是資料倉儲中的資訊單元,也是多維空間中的乙個單元,受分析單元的限制。事實儲存於一張表中(當使用關聯式資料庫時)或者是多維資料庫中的乙個單元。每個事實包括關於事實(銷售額,銷售量,成本,毛利,毛利率等)的基本資訊,並且與維度相關。在某些情況下,當所有的必要資訊都儲存於維度中時,單純的事實出現就是對於資料倉儲足夠的資訊。
維度:維度是用來反映業務的一類屬性,這類屬性的集合構成乙個維度。例如,某個地理維度可能包括國家、地區、省以及城市的級別。乙個時間維度可能包括年、季、月、周、日的級別。
級別:維度層次結構的乙個元素。級別描述了資料的層次結構,從資料的最高(彙總程度最大)級別直到最低(最詳細)級別(如大分類-中分類-小分類-細分類)。級別僅存在於維度內。級別基於維度表中的列或維度中的成員屬性。
資料清洗:對資料倉儲系統無用的或者不符合資料格式規範的資料稱之為髒資料。清洗的過程就是清除髒資料的過程。
資料採集:資料倉儲系統中後端處理的一部分。資料採集過程是指從業務系統中收集與資料倉儲各指標有關的資料。
資料轉換:解釋業務資料並修改其內容,使之符合資料倉儲資料格式規範,並放入資料倉儲的資料儲存介質中。資料轉換包括資料儲存格式的轉換以及資料表示符的轉換(如產品**到產品名稱的轉換)。
聯機分析處理(olap online analytical processing )
資料探勘:在資料倉儲的資料中發現新資訊的過程被稱為資料探勘,這些新資訊不會從作業系統中獲得。
切片:一種用來在資料倉儲中將乙個維度中的分析空間限制為資料子集的技術。
切塊:一種用來在資料倉儲中將多個維度中的分析空間限制為資料子集的技術。
星型模式:是資料倉儲應用程式的最佳設計模式。它的命名是因其在物理上表現為中心實體,典型內容包括指標資料、輻射資料,通常是有助於瀏覽和聚集指標資料的維度。星形圖模型得到的結果常常是查詢式資料結構,能夠為快速響應使用者的查詢要求提供最優的資料結構。星形圖還常常產生一種包含維度資料和指標資料的兩層模型。
雪花模式:指一種擴充套件的星形圖。星形圖通常生成乙個兩層結構,即只有維度和指標,雪花圖生成了附加層。實際資料倉儲系統建設過程中,通常只擴充套件三層:維度(維度實體)、指標(指標實體)和相關的描述資料(類目細節實體);超過三層的雪花圖模型在資料倉儲系統中應該避免。因為它們開始像更傾向於支援oltp 應用程式的規格化結構,而不是為資料倉儲和olap應用程式而優化的非格式化結構。
粒度:粒度將直接決定所構建倉庫系統能夠提供決策支援的細節級別。粒度越高表示倉庫中的資料較粗,反之,較細。粒度是與具體指標相關的,具體表現在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。
資料倉儲模型中所儲存的資料的粒度將對資訊系統的多方面產生影響。事實表中以各種維度的什麼層次作為最細粒度,將決定儲存的資料能否滿足資訊分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應時間。
度量值:在多維資料集中,度量值是一組值,這些值基於多維資料集的事實資料表中的一列,而且通常為數字。此外,度量值是所分析的多維資料集的中心值。即,度量值是終端使用者瀏覽多維資料集時重點檢視的數字資料(如銷售、毛利、成本)。
維度模型資料倉儲基礎物件概念一覽
一 度量 指標 指標器 度量和維度構成olap的主要概念,對於在事實表或者乙個多維立方體裡面存放的數值型的 連續的字段,就是度量。這符合上面的意思,有標準。乙個度量字段肯定是統一單位,比如元 戶數。假設乙個度量字段。當中的度量值可能是歐元又有可能是美元,那這個度量沒法彙總。在olap中還有計算度量的...
維度模型資料倉儲(二) 維度模型基礎
一 維度模型基礎 既然維度模型是資料倉儲建設中的一種資料建模方法,那不妨先看一下幾種主流的資料倉儲架構。1.kimball的dw bi架構 圖 一 1 2.inmon企業資訊工廠架構 圖 一 2 3.混合型架構 圖 一 3 從圖中可以看出,每種架構中都有資料集市。資料集市就是面向終端使用者的資料庫。...
資料倉儲維度建模
雪花模型 星型模型 星座 多個事實表 問題 1 資料倉儲,不針對某乙個分析主題,而是有多個分析主題,即多個事實表,維度表怎麼設計?2 即使是同乙個分析主題,也可能存在多個事實表,維度表如何設計?多個時間維度?無論星型模型 雪花模型還是星座模型,都是針對維度上的區別而來,星座模型實質上還是星型模型,只...