資料倉儲與知識發現(一)初識

2021-09-28 21:06:14 字數 1924 閱讀 8391

這學期學院開設了《資料倉儲與知識發現》這門專業課,作為課程筆記複習鞏固之用,將上課所學記錄在部落格中,同時也希望得到不足之處與指正,作為交流學習。

《資料倉儲與知識發現》這個標題裡提到「資料」「知識」兩個概念,那什麼是資料?什麼是知識?

data 資料 :我們可以輕易得到很多資料,但這些資料對我們來說是沒有意義的。

knowledge 知識 :從資料得出有意義的東西,或者說對你來說有用的東西。

同時這裡提到了乙個知識層次結構(the knowledge hierarchy):從低階到高階依次是data(資料)、information(資訊)、knowledge(知識)、wisdom(智慧型)。由此可以很容易看出從低到高,資料在變得有意義、有價值,直到成為智慧型。

但我們面臨乙個問題就是:我們淹沒在資料中,卻渴求知識。由此,針對這個問題的解決方案就是所謂的資料倉儲和資料探勘。

data warehousing資料倉儲

data mining資料探勘 :從大型資料庫的資料中提取有趣(interesting)的資訊或模式。有趣這個詞的分析也會在後文提到。

現在,先來看一下資料探勘的相關介紹。

資料探勘的潛在應用有:

1 資料分析和決策支援:比如市場分析和管理、風險分析和管理、舞弊監察和管理

2 文字挖掘(news group,email,documents)和**分析

3 智慧型查詢問答等

資料探勘:a kdd process (knowledge discovery in database)

2 creating a target data set:data selection   建立目標資料集:資料選擇

3 data cleaning and preprocessing   資料清理和預處理

4 data reduction and transformation   資料約簡和轉換

5 choosing functions of data mining   資料探勘的功能選擇

6 choosing the mining algorithm   資料探勘演算法的選擇

7 data mining:search for patterns of interest   資料探勘:尋找興趣模式

8 pattern evaluation and knowledge presentation    模式評估和知識呈現

9 use of discovered knowledge   運用已發現的知識

資料探勘和商業智慧型化:

乙個典型資料探勘系統的架構:

在什麼型別的資料上進行資料探勘?

1 relational databases   關聯式資料庫

2 data warehouses   資料倉儲

3 transactional databases   事務資料庫

4 advanced db and information repositories   高階資料庫和資訊儲存庫

資料探勘的功能:

1 概念描述:表徵和鑑別

2 關聯性:相關性和因果關係

3 分類和**

4 聚類分析

5 離群值分析

6 趨勢與演化分析

7 其他模式導向或統計分析

資料倉儲初識

資料倉儲是乙個面向主題的 subject oriented 整合的 integrate 相對穩定的 non volatile 反映歷史變化 time variant 的資料集合,用於支援管理決策。資料倉儲是伴隨著企業資訊化發展起來的,在企業資訊化的過程中,隨著資訊化工具的公升級和新工具的應用,資料量...

初識大資料(三 Hadoop與MPP資料倉儲)

mpp代表大規模並行處理,這是網格計算中所有單獨節點參與協調計算的方法。是將任務並行的分散到多個伺服器和節點上,在每個節點上計算完成後,將各自部分的結果彙總在一起得到最終的結果。mpp dbms是建立在這種方法之上的資料庫管理系統。在這些系統中的每個查詢都會被分解為由mpp網格的節點並行執行的一組協...

大資料倉儲hive初識簡介

hive是facebook實現並開源的用於解決海量結構化日誌的資料統計,是為了解決mapreduce程式設計的不便性以及成本高的問題,可以簡化操作 什麼是hive 處理的資料儲存在hdfs上 底層分析資料的實現是mapreduce 執行程式執行在yarn上 hive是基於hadoop的乙個資料倉儲工...