資料探勘(kdd,knowledge discovery in database):資料庫中發現知識。
資料清理:消除雜訊和刪除不一致資料。
資料整合:多種資料來源可以組合在一起。
資料變換:通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式。
資料探勘:基本步驟,使用智慧型方法提取資料模式
模式評估:根據某種興趣度度量,識別代表知識的真正有趣的模式。
知識表示:使用視覺化和知識表示技術,向使用者提供挖掘的知識。
步驟1-4是資料預處理的不同形式,為挖掘準備資料。
資料的最基本形式是資料庫資料、資料倉儲資料和事務資料。
資料庫資料:資料庫系統,也稱為資料庫管理系統(dbms),由一組內部相關的資料(資料庫)和一組管理和訪問資料的軟體程式組成。軟體程式提供如下機制:定義資料庫結構和資料儲存,說明和管理併發、共享或分布式資料訪問,面對系統癱瘓或未授權訪問,確保儲存的資訊的一致性和安全性。關聯式資料庫是表的匯集,每個表都被賦予乙個唯一的名字。每個表都包含一組屬性(列或字段),並且通常存放大量元組(記錄或行)。關係表中的每個元組代表乙個物件,被唯一的關鍵字標識,並被一組屬性值描述。通常為關聯式資料庫構建語義資料模型,如實體-聯絡資料模型。
資料倉儲:是乙個從多個資料來源收集的資訊儲存庫,存放在一致的模式下,並且通常駐留在單個站點上。資料倉儲通過資料清理、資料變換、資料整合、資料裝入和定期資料重新整理來構造。通常。資料倉儲用稱做資料立方體的多維資料建模。其中每個維度對應於模式中的乙個或者一組屬性,而每個單元存放某種聚集度量值。
事務資料:一般來說,事務資料庫的每個記錄代表乙個事務,通常,乙個事務包含乙個唯一的事務標識號(trans_id),以及一組事務的項的列表(如,交易中購買的橡商品)。
trans_id
商品的id列表
t100
i1,i3,i8,i16
t200
i2,i8
.....
.......
資料探勘功能用於指定資料探勘任務發現的模式。一般而言,這些任務可以劃分為兩類:描述性(descriptive)和**性(predictive)。描述性挖掘任務刻畫目標資料中資料的一般性質。**性挖掘任務在當前資料上進行歸納總結,以便做出**。
類/概念描述:特徵化與區分。 資料可以與類或者概念相關聯,例如在商店中,銷售的商品類包括計算機和印表機。使用彙總的、簡潔的、精確的表示方式描述每個類是有用的。這種類或概念的描述稱為類/概念的描述。這種描述可以通過下述方法得到:(1)、資料特徵化,一般地彙總所研究類(目標類)的資料;(2)、資料區分,將目標類與乙個或者多個可比較類(通常稱為對比類)進行比較。(3)、資料特徵化與區分。資料特徵化(data characterization)是目標類資料的一般特性或特徵的彙總。通常,通過查詢來收集對應於使用者指定類的資料。資料區分(data discrimination)是將目標類資料物件的一般特性與乙個或者多個對比類物件的一般特性進行比較。
挖掘頻繁模式、關聯和相關性:頻繁模式frequent pattern是在資料中頻繁出現的模式。存在多種型別的頻繁模式,包括頻繁項集、頻繁子串行和頻繁子結構。頻繁項集一般是指頻繁地在事務資料集中一起出現的商品的集合,如小賣部中被顧客頻繁一起購買的牛奶和麵包。頻繁出現的子串行,如顧客傾向於先購買便攜機,在購買數碼機,然後購買記憶體卡這樣的模式就是乙個序列模式。關聯分析:乙個例子 buys(x,"computer")---》buys(x,"software")[support = 1% , confidence= 50%],其中x是變數代表客戶。50%的置信度或確信性意味,如果一位顧客購買計算機,則購買軟體的可能性50%。1%的支援度意味,所分析的所有事物的1%顯示計算機和軟體一起被購買。這個關聯規則涉及單個重複的屬性或者謂詞(即buys)。包含單個謂詞的關聯規則被稱為單維關聯規則(single-dimensional association rule)。去掉謂詞符號,上面的規則可以簡化為"computer→software[1%,50%]"。
資料探勘還可以發現如下形式的規則:age(x,"20..29")∧ income(x,"40k..49k")→buys(x,"laptop")[support=2%,confidence=60%]。該規則指出,這涉及多個屬性或謂詞(即age,income和buys)的關聯。採用多維資料庫使用的術語,每個屬性稱做乙個維,上面的規則可以稱做多維關聯規則(multidimensional association rule)。
通常,乙個關聯規則被認為是無趣的而被丟棄,如果它不能同時滿足最小支援度閾值和最小置信度閾值。
3.用於**分析的分類與回歸:分類是這樣乙個過程,它找出描述和區分資料類或概念的模型(或函式),以便能夠使用模型**類標號未知的物件的類標號。匯出模型是基於對訓練資料集(即,類標號已知的資料物件)的分析。該模型用來**類標號未知的物件類標號。分類**類別(離散的、無序的)標號,而回歸建立連續值函式模型。也就是說回歸**缺失的或難以獲得的數值資料值,而不是(離散的)類標號。回歸分析(regression analysis)是一種最常用的數值**的統計方法。
4. 聚類分析:聚類分析資料物件,而不考慮類標號。可以使用聚類產生資料組群的類標號。物件根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組。物件的簇(cluster)這樣形成,使得相比之下在同乙個簇中物件具有很高的相似性,而與其他簇物件很不相似。所形成的每個簇都可以看成乙個物件類。
5. 離群點分析:資料集中可能包含一些資料物件,它們與資料的一般行為或模型不一致。這些資料物件是離群點(outlier)。
形如x->y的關聯規則,一種客觀度量是規則的支援度(support),規則的支援度表示事務資料庫中滿足規則的事務所佔的百分比。支援度可以取概率p(x|y)。
《資料探勘 概念與技術》讀書筆記 第一章 引論
資料探勘把大型資料集轉化成知識。資料倉儲是一種多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策。聯機分析處理 olap 是一種分析技術,具有彙總 合併和聚集以及從不同的角度觀察資訊的能力。注 與聯機事務處理oltp不同 資料探勘是從大量資料中挖掘有趣模式和知識的過程。資料探勘過程 資...
《資料探勘概念與技術》學習筆記 第一章
資料探勘是從大量資料中發現有趣模式和知識的過程,它既不是一種廣告宣傳,也不是資料庫 統計學 機器學習或模式識別發展而來的技術的簡單轉換或應用。機器學習的不斷發展,為資料探勘提供了很好的資料分析技術基礎,而統計學則幫助人們更好的理解資料的全貌,模式識別也在資料探勘的過程中被廣泛應用,因此,資料探勘實際...
第一章 引論
起源與背景 參考書如下 起源 上世紀初丹麥數學家erlang,在用隨機過程理論研究 網的過程中,建立起的一套理論系統。所以,排隊論是一門古老而又年青的理論。發展 二戰之後,排隊理論與稍後發展起來的數學規劃 決策論等共同構成了運籌學。在計算機系統結構和計算機網路領域中的應用起始於上世紀七十年代。排隊問...