面向主題
整合相對穩定
反映歷史變化
抽取轉換
載入收集和分析業務需求
建立資料模型和資料倉儲的物理設計
定義資料源
選擇資料倉儲技術和平台
從操作型資料庫中抽取,清洗及轉換資料到資料倉儲
選擇訪問和報表工具,選擇資料庫連線軟體,選擇資料分析和資料展示軟體
更新資料倉儲
主題摘要
資訊摘要
綱目摘要
摘錄型摘要
web結構挖掘
web使用挖掘
計算總體誤差對於每個引數的有序倒數公式(函式)
任意選擇一組資料作為初始引數
根據當前引數計算總體誤差
計算各引數的增量,並計算調整後的引數大小,把調整後的引數作為當前引數
資訊增益的缺點是傾向於取值較多的屬性
只能對描述屬性為離散型屬性的資料集構造決策樹
支援度≥sup(min)的項集稱為頻繁項集。
如果l2 = ,,,, };
則連線產生的c3 = abc ,adb,acd ,bcd //子集沒有cd,去掉cd
修剪c3 = abc abd
資料倉儲筆記
資料倉儲筆記 工作之餘總結 優化引數設定 set hive.mapred.mode nonstrict set hive.auto.convert.join false set hive.skewjoin.key 100000 set mapred.reduce.tasks 15 set hive....
資料倉儲 資料倉儲部署
1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...
資料倉儲,什麼是資料倉儲?
資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...