這學期學院開設了《資料倉儲與知識發現》這門專業課,作為課程筆記複習鞏固之用,將上課所學記錄在部落格中,同時也希望得到不足之處與指正,作為交流學習。
《資料倉儲與知識發現》這個標題裡提到「資料」和「知識」兩個概念,那什麼是資料?什麼是知識?
data 資料 :我們可以輕易得到很多資料,但這些資料對我們來說是沒有意義的。
knowledge 知識 :從資料得出有意義的東西,或者說對你來說有用的東西。
同時這裡提到了乙個知識層次結構(the knowledge hierarchy):從低階到高階依次是data(資料)、information(資訊)、knowledge(知識)、wisdom(智慧型)。由此可以很容易看出從低到高,資料在變得有意義、有價值,直到成為智慧型。
但我們面臨乙個問題就是:我們淹沒在資料中,卻渴求知識。由此,針對這個問題的解決方案就是所謂的資料倉儲和資料探勘。
data warehousing資料倉儲
data mining資料探勘 :從大型資料庫的資料中提取有趣(interesting)的資訊或模式。有趣這個詞的分析也會在後文提到。
現在,先來看一下資料探勘的相關介紹。
資料探勘的潛在應用有:
1 資料分析和決策支援:比如市場分析和管理、風險分析和管理、舞弊監察和管理
2 文字挖掘(news group,email,documents)和**分析
3 智慧型查詢問答等
資料探勘:a kdd process (knowledge discovery in database)
2 creating a target data set:data selection 建立目標資料集:資料選擇
3 data cleaning and preprocessing 資料清理和預處理
4 data reduction and transformation 資料約簡和轉換
5 choosing functions of data mining 資料探勘的功能選擇
6 choosing the mining algorithm 資料探勘演算法的選擇
7 data mining:search for patterns of interest 資料探勘:尋找興趣模式
8 pattern evaluation and knowledge presentation 模式評估和知識呈現
9 use of discovered knowledge 運用已發現的知識
資料探勘和商業智慧型化:
乙個典型資料探勘系統的架構:
在什麼型別的資料上進行資料探勘?
1 relational databases 關聯式資料庫
2 data warehouses 資料倉儲
3 transactional databases 事務資料庫
4 advanced db and information repositories 高階資料庫和資訊儲存庫
資料探勘的功能:
1 概念描述:表徵和鑑別
2 關聯性:相關性和因果關係
3 分類和**
4 聚類分析
5 離群值分析
6 趨勢與演化分析
7 其他模式導向或統計分析
資料倉儲初識
資料倉儲是乙個面向主題的 subject oriented 整合的 integrate 相對穩定的 non volatile 反映歷史變化 time variant 的資料集合,用於支援管理決策。資料倉儲是伴隨著企業資訊化發展起來的,在企業資訊化的過程中,隨著資訊化工具的公升級和新工具的應用,資料量...
初識大資料(三 Hadoop與MPP資料倉儲)
mpp代表大規模並行處理,這是網格計算中所有單獨節點參與協調計算的方法。是將任務並行的分散到多個伺服器和節點上,在每個節點上計算完成後,將各自部分的結果彙總在一起得到最終的結果。mpp dbms是建立在這種方法之上的資料庫管理系統。在這些系統中的每個查詢都會被分解為由mpp網格的節點並行執行的一組協...
大資料倉儲hive初識簡介
hive是facebook實現並開源的用於解決海量結構化日誌的資料統計,是為了解決mapreduce程式設計的不便性以及成本高的問題,可以簡化操作 什麼是hive 處理的資料儲存在hdfs上 底層分析資料的實現是mapreduce 執行程式執行在yarn上 hive是基於hadoop的乙個資料倉儲工...