現在決大多數企業已在其乙個或多個部門內採用了計算機商務管理系統,也累積了相當的商業資料。然而,正如業內的那句老話「rich data, poor information」,以前累積的資料,並沒有很好的得到利用。why?並不是企業高層管理人員沒有想到,而是這些資料**太廣,格式不統一,並且其中極少量的資料記錄格式不正確;同時,累計的資料量相當龐大,上百萬條記錄才剛起步,某些大型公司每天所產生的商業記錄已過千萬;而且,某些細節對高層管理人員來說並不重要。他們需要的是乙份站在戰略層角度統觀全域性,及時的,在短時間內可以讀完,為企業決策服務的統計報表。
為了實現這一艱鉅的目標,bi專家把任務分解成了三個子任務:
1)為了整合各種格式的資料,清除原有資料中的錯誤記錄,專家們提出了資料預處理的要求——stl(資料抽取、轉換、裝載);
2)對預處理過資料,應該統一集中起來,由此產生了元資料(meta data)、資料倉儲(data warehouse);
3)最後,對於集中起來的龐大的資料集,還應進行相應的專業統計,從中發掘出對企業決策有價值的新的機會,這就是olap(聯機事務分析)和資料探勘(data mining)。
下面具體介紹一下每個子任務所需要用到的專業技術和輔助工具。
1)資料預處理(stl:extraction,transformation,load)
其中,尤其要注意的一點時,並不是各個**的不同格式的所有資料都能被新的統一格式包容,我們也不應強求非要把所有資料來源的資料全部集中起來。why?原因很多。有可能原來錄入的資料中,少量的記錄使用了錯誤的資料,這類資料如果無法校正,應該被捨去。某些資料記錄是非結構化的,很難將其轉化成新定義的統一格式,而且從中抽取資訊必須讀取整個檔案,效率極低,如大容量的二進位制資料檔案,多**檔案等,這類資料如果對企業決策不大,可以捨去。
目前已有一部分軟體廠商開發出專門的etl工具,其中包括:
·ardent datastage
·evolutionary technologies,inc. (eti) extract
·information powermart
·sagent solution
·sas institute
·oracle warehouse builder
·mssql server2000 dts
2)資料倉儲
上面提到,在進行stl之前,需要先定義乙個統一的資料格式。那麼,定義出來的統一的資料格式是否需要儲存起來,以便在資料倉儲日後的演化中使用呢?yes!隨著企業不斷變化的商業模式和業務規則,肯定需要對系統進行修改和功能公升級。如果弄不清楚之前定義的資料格式的具體含義,我們將無從下手。所以,我們需要一種用來描述資料的資料。早期我們使用的是資料字典(data dictionary),資料字典一般包括資料的定義、關係、**、作用域、格式和用法。但是,隨著時間的推移,專家們發現,越來越多的已搭建好的資料倉儲希望方便的包容最新的各種格式的結構化和非結構化資料,而傳統的基於關係型資料庫的資料字典並不能達成這一目標。
xml出世之後,這種自描述,可無限巢狀擴充套件,平**立性的文字資料格式為資料字典的進化提供了相當重要的技術支援,由此產生了基於xml的元資料的概念。並且,目前已有不少的軟體系統和資料倉儲都採用了xml格的元資料。如微軟的.net,p2p的emule等。由此可見,元資料並不單單侷限運用在資料倉儲中。
由於基於xml的元資料相當靈活,我們可以用元資料來描述複雜的商業業務定義。所以,現在資料倉儲中的元資料分為兩種:技術元資料和業務元資料。技術元資料(technical meta data)是為企業技術使用者和it部門的員工提供支援的元資料,對於維護和改進系統來所至關重要。而業務元資料(business meta data)是為企業業務使用者提供支援的元資料,使業務使用者更容易理解統計報表中的資訊。
元資料工具分為兩類:一類是將各種元資料整合到集中式倉儲的整合工具,另一類是在倉儲上執行查詢訪問的訪問工具。一般來說,大多數軟體廠商所提供的資料倉儲、bi系統中都**了相應的工具。其中包括:
·ardent metastage (infomix)
·ibm information catalog
·brio enterprise
·business objects
·cognos impromptu及powerplau
·information advantage business intelligence
·microsoft olap services ("plato")
·microstrategy dss web and server
資料倉儲是bi的基礎,就好比廚師的食材。各個資料來源的資料經etl的預處理後,就被送進了資料倉儲中。資料倉儲有如下4個重要特性:
①面向主題的:不同型別的公司,其主題集合是不相同的。
②整合的:資料倉儲的資料**很廣,資料倉儲最重要的目的就是為了整合這些不同資料來源的資料。
③非易失的:和傳統的操作型資料庫系統相比,資料倉儲通常是以批量方式載入和訪問。而且,對於資料倉儲中的記錄,並不進行一般意義上的資料更新,刪除。所有的歷史資料都會被保留,通常我們只是不停的批量匯入新的資料。
④隨時間變化的:操作型資料庫系統出於效能上的考慮,並不儲存系統投入執行後所產生的所有資料,一般只保留最新的60~90天內所產生的資料記錄。而且,通常情況下,操作型資料庫中一項業務活動只占用一條記錄。當業務狀況發生變化後,我們只需更新相應的記錄。而為了按時間變化發掘業務活動的時序規律,資料倉儲中,該業務活動可能同時存在多條記錄,除了相應欄位的內容不同外,其業務活動的時間記錄也不相同。資料倉儲中的資料是一系列在某時某刻生成的複雜的快照,由此可見,資料倉儲的資料是高度冗餘且必須的。
而且,由於資料倉儲的使用物件不盡相同,資料倉儲的設計需要考慮其資料單元的細節程度,即粒度。細節程度越高,粒度級就越低,反之亦然。例如:乙個簡單的交易處於低粒度級,而每個月所有交易的彙總則處於乙個高粒度級。通常,資料分析人員使用的資料粒度較低,而高層管理人員所使用的資料粒度較高。粒度同時決定了資料倉儲所占用的物理空間的大小,儘管一條交易記錄可能只占用200個位元組,但是乙個月所累積的10萬條交易記錄就占用了20m個位元組。如果按月對每月的所有交易記錄進行綜合,所得到的記錄可能只占用500個位元組。
資料倉儲通常的活動是批量載入和查詢訪問,並不進行一般意義的資料更新,而且其資料冗餘程度較高。為了提高查詢效率,我們可以採用一些非常規的方法來進行資料分割槽儲存。而且,我們需要對資料倉儲中的資料進行方便且有效的監控。
提供資料倉儲技術服務的軟體廠商大多是從操作型資料庫系統發展起來,其推出的資料倉儲都是基於其自身研發的大型資料庫產品上,且**了相應的etl,元資料,olap,報表等工具,如ibm的dm2,sas,sybase,oracle,informix,mssql server等。
IP協議相關技術簡介
第一,很少有人直接記憶ip位址,而是使用web 的位址或者電子郵件的位址進行通訊。第二,在資料鏈路層也不使用ip位址通訊,在乙太網的情況下只使用mac位址傳輸資料報,實際上將眾多ip資料報在網路上進行傳送的就是資料鏈路本身,因此,必須要了解mac位址。為了解決ip位址不便記憶的問題,tcp ip世界...
Vxml簡介及相關資料
vxml簡介 voice extensible markup language 簡稱 vxml 是被用來建立語音對話系統,可以呼叫語音合成以及語音識別服務,可以用來記錄語音錄入和連線 系統。建立 vxml 語音的主要目的就是用 web 開發的理念來開發互動式的語音應用。vxml 提供了基於 menu...
XML簡介及解析技術
xml是可擴充套件標記性語言 xml的作用 可以用來儲存資料 它可以用來做為工程或模組的配置檔案 它可以用來做為網路資料傳輸的格式 文件說明 說明 元素 標籤 xml屬性 cdata 文字區域 格式 dom4j程式設計步驟 先載入xml檔案建立document物件 通過document物件拿到根元素...