資料探勘(一) 引論

2021-09-01 12:34:19 字數 1513 閱讀 1431

資訊時代 = 資料時代

資料探勘(kdd)把大型資料集轉換成知識

(1)資料倉儲: 這是一種多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策,一種資料儲存結構,用於長期儲存資料的倉庫

(2)資料倉儲技術:包括資料清理、資料整合和聯機分析處理(olap)

(3)olap聯機分析處理:一種分析技術,具有彙總、合併和聚集以及從不同角度觀察資訊的能力

(1)資料清理(消除雜訊和刪除不一致資料)

(2)資料整合(多種資料來源可以組合在一起)

(3)資料選擇(從資料庫中提取與分析任務相關的資料)

(4)資料變換(通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式)

(5)資料探勘(基本步驟,使用智慧型方法提取資料模式)

(6)模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式)

(7)知識表示(使用視覺化技術和知識表示技術,向使用者提供挖掘的知識)

從大量資料中挖掘有趣模式和知識的過程,資料來源包括資料庫、資料倉儲、web、其他資訊儲存庫或動態地流入系統的資料

是乙個從多個資料來源收集的資訊儲存庫,存放在一致的模式下,並且通常駐留在單個站點上。資料倉儲通過資料清理、資料變換、資料整合、資料裝入和定期資料重新整理來構造。

資料倉儲又稱做資料立方體的多維資料結構建模,資料立方體提供資料的多維檢視,並允許預計算和快速訪問彙總資料;

通過提供多維資料檢視和彙總資料的預計算,資料倉儲非常適合聯機分析處理(下鑽和上捲)

多維資料探勘,又稱探索式多維資料探勘:把資料探勘的核心技術與基於olap的多維分析結合在一起,在不要的抽象層的多維組合中搜尋有趣的模式,從而探索多維資料空間

資料探勘功能用於指定資料探勘任務發現的模式,這些任務分為描述性和**性。

描述性挖掘任務:刻畫目標資料中資料的一般性質

**性挖掘任務:在當前資料上進行歸納,以便做出**

類/概念描述可以通過以下方法得到:

(1)資料特徵化:目標類資料的一般特性或特徵的彙總

(2)資料區分:將目標類資料物件的一般特性與乙個或多個對比類物件的一般特性進行比較

(3)資料特徵化和區分

頻繁模式包括:

(1)頻繁項集:指頻繁地在事務資料集中一起出現額商品的集合,如頻繁一起購買的牛奶和麵包

(2)頻繁子串行:比如顧客傾向於先購買一樣再購買另外一樣

(3)頻繁子結構:可能涉及不同的結構形式,可以與項集或子串行結合在一起。乙個子結構頻繁出現,稱其為結構模式

關聯分析: 單維關聯規則 多維關聯規則

(1)分類: 找出描述和區分資料類或概念的模型,以便能夠使用模型**類標號未知的物件的類標號

匯出模型的多種形式:分類規則、決策樹、數學公式或神經網路

(2)回歸:建立連續值函式模型,用來**缺失的或難以獲得的數值資料值

聚類分析資料物件,不考慮類標號

原則:最大化類內相似性、最小化類間相似性

離群點資料分析

支援度、置信度

監督學習(分類)、無監督學習(聚類)、半監督學習、主動學習

兩個流行應用: 商務智慧型 和 web搜尋引擎

資料探勘(一)引論

啤酒與尿布 qq推薦人 購買 購買披薩 古人資料分析,哪些諺語可以說明,古人就根據觀察到的資訊進行資訊的分析和歸納?古人根據千百年的生活經驗分析總結得到天氣情況與自然不同物體的表現形式關聯性。資料探勘 滴滴出行資料 什麼是資料探勘?資料探勘 資料庫中知識發現 資料探勘 data mining 是 從...

編譯原理(一) 引論

編譯原理 引論一.compiler 編譯器 將源程式 高階語言 翻譯成一種能被計算機執行的形式。我們用的是編譯原理及實踐 機械工業出版社出版 我看的是編譯原理 龍書 整本書都是圍繞compiler 編譯器 進行的,我們在學 習c語言時需要先編譯源程式生成.exe檔案執行。compiler的結構 an...

資料探勘概念與技術 學習筆記1 引論

資料倉儲 多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策。資料倉儲 通過資料清理 資料變換 資料整合 資料裝入 定期資料重新整理來構造。資料倉儲技術包括 資料清理 資料整合 聯機分析處理 olap olap操作的例子包括上捲和下鑽。資料倉儲用資料立方體這種多維資料結構建模。知識發現...