資料倉儲開發的流程是確定 使用者需求——>設計和建立資料庫——>提取和載入資料 ,
其中設計和建立資料庫步驟中分為:
而提取和載入資料分為:
因此當我們有建立資料倉儲的需求時候,首先按照需求設計資料倉儲的模型,然後根據設計好的模型對原有資料庫進行etl處理。
pentaho根據整個流程整合需要的工具。bi server是整個bi套件的門戶,用來整合各種資源。其他的元件通過publish操作將定義好的模型資訊發布到平台上,平台會自動讀取這些資訊更新自身的資料來源等。design studio是支援action sequence圖形化開發的工具,可以定義一串行操作來完成整個bi過程。pentaho metadata元資料管理借助於圖形化對元資料建模。kettle etl主要對源資料庫資料進行轉換抽取載入等工作。mondrian olap是針對多維分析提供的引擎。weka是進行資料探勘工具。pentaho reporting工具用來設計報表。pentaho dashboard支援儀錶盤的開發。
解壓後有administration-console和biserver-ce兩個資料夾。其中biserver-ce自帶有tomcat。
開啟biserver-ce資料夾可以使用start-pentaho.bat執行bi 伺服器。如果沒有報錯的情況下,在ie瀏覽器開啟http://localhost:8080/pentaho
可以看到管理介面:
點開登陸介面下方的evaluation login,可以展開兩個測試使用者joe和suzy,密碼都是password。
登進去之後就可以看到管理介面了。要開啟左邊的導航欄就點開view選單項的browser選項。導航欄上可以看到已經配好的資料來源,以及報表和多維分析的例子。
我們可以使用系統自帶的建立報表或者多維分析的功能進行測試。要使用自己的資料來源進行測試,需要新建資料來源。新增對應的資料來源驅動包到%biserver目錄%\biserver-ce-4.5.0\biserver-ce\tomcat\lib中。在選單欄中選擇file->new->data source選項將進入新建資料來源導航欄。可以根據自己的資料庫建立connection。
new anaylze例子需要使用已經寫好的多維分析的schame才能進行分析。系統自帶了一些功能,再建立資料來源的同時可以建立乙個簡單的schame,這遠遠不能滿足我們的需求。因此我們需要借助於pentaho家族中另乙個成員來建立起自己資料倉儲立方體即petaho schame workbench。
下一節將講述如何使用它建立起乙個資料立方體進行多維分析。
資料倉儲 筆記
面向主題 整合相對穩定 反映歷史變化 抽取轉換 載入收集和分析業務需求 建立資料模型和資料倉儲的物理設計 定義資料源 選擇資料倉儲技術和平台 從操作型資料庫中抽取,清洗及轉換資料到資料倉儲 選擇訪問和報表工具,選擇資料庫連線軟體,選擇資料分析和資料展示軟體 更新資料倉儲 主題摘要 資訊摘要 綱目摘要...
資料倉儲筆記
資料倉儲筆記 工作之餘總結 優化引數設定 set hive.mapred.mode nonstrict set hive.auto.convert.join false set hive.skewjoin.key 100000 set mapred.reduce.tasks 15 set hive....
資料倉儲 資料倉儲部署
1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...