1資料探勘分類:從資料分析角度出發,資料探勘可以分為兩種型別:描述型資料探勘——以簡潔概述的方式表達資料中的存在一些有意義的性質。**型資料探勘——通過對所提供資料集應用特定方法分析所獲得的乙個或一組資料模型,並將該模型用於**未來新資料的有關性質。
2 廣義知識的概念 (1
)定義:廣義知識是指類別特徵的概括性描述知識,也稱為概念描述。它反映同類事物共同性質,是對資料的概括、精煉和抽象。
廣義知識是對大量資料的歸納、概括,提煉出帶有普遍性的、概括性的描述統計知識。
(2)最簡單的描述型資料(廣義知識)挖掘就是定性歸納。定性歸納常常也稱為概念描述。這裡概念描述涉及一組(同一類別)的物件,諸如:商店常客等。
概念描述生成對資料的定性描述和對比定性描述。
定性概念描述提供了乙個有關資料整體的簡潔清晰描述(概念內涵)
對比定性概念描述提供了基於多組(不同類別)資料的對比概念描述(概念外延)
3.廣義知識的發現方法
對大量資料進行有效靈活的概述方法主要有兩種:1.
資料立方體
2.面向屬性的規約
⑴ 資料立方方法(又稱為olap方法)進行資料泛化,就是在資料立方中存放著預先對部分或所有維(屬性)的聚合計算結果。
對多維資料立方的資料泛化和資料細化工作,可以通過roll up
或drill down
操作實現
上捲(roll-up)
:彙總資料 消減資料立方中的維數(維規約),或將屬性值泛化為更高層次的概念(概念分層向上攀公升)
下鑽(drill-down)
:上捲的逆操作 由不太詳細的資料到更詳細的資料,可以通過沿維的概念分層向下或引入新的維來實現
資料立方體方法侷限性:
①資料型別限制:多數商用資料立方的實現都是將維的型別限制在數值型別方面,而且將處理限制在簡單數值聚合方面。由於許多應用涉及到更加複雜資料型別的分析,此時資料立方體的方法應用有限。
②缺乏一定的標準:資料立方方法並不能解決概念描述所能解決的一些重要問題,諸如:在描述中應該使用哪些維?在泛化過程應該進行到哪個抽象層次上。這些問題均要由使用者負責提供答案的。
(2)面向屬性的規約(aoi)
基本思想:首先利用關聯式資料庫查詢來收集與任務相關的資料,並通過對任務相關資料集中各屬性不同值個數的檢查完成資料泛化操作。資料泛化操作是通過屬性消減或屬性泛化(又稱為概念層次提公升)操作來完成的。通過合併(泛化後)相同行並累計它們相應的個數。這就自然減少了泛化後的資料集大小。所獲(泛化後)結果以圖表和規則等多種不同形式提供給使用者。
aoi方法的第一步就是首先利用資料庫查詢語言從大學資料庫中將(與本挖掘任務相關的)學生資料抽取出來;然後指定一組與挖掘任務相關的屬性集。而在另一方面,使用者或許會提供過多的屬性,這時就需要利用前面資料預處理所介紹的資料清理和維歸約方法從描述型資料探勘中過濾掉無關或弱相關的屬性。
aoi所涉及的操作主要有兩種:
①屬性消除:它基於以下規則進行:若乙個屬性(在初始資料集中)有許多不同數值,且(a
)該屬性無法進行泛化操作(如:沒有定義相應的概念層次樹),或(
b)它更高層次概念是用其它屬性描述的,這時該屬性就可以從資料集中消去.
②屬性泛化:它是基於以下規則進行:若乙個屬性(在初始資料集中)有許多不同數值,且該屬性存在一組泛化操作,則可以選擇乙個泛化操作對該屬性進行處理。
控制泛化過程的方法:
①屬性泛化閾值控制:該技術就是對所有屬性統一設定乙個泛化閾值,或每個屬性分別設定乙個閾值;若乙個屬性不同取值個數大於屬性泛化閾值,就需要對相應屬性作進一步的屬性消減或屬性泛化操作。資料探勘系統通常都有乙個預設屬性閾值(一般從2到8
) ②泛化關係閾值控制:若乙個泛化關係中內容不相同的行數(元組數)大於泛化關係閾值,這就需要進一步進行相關屬性的泛化工作。否則就不需要作更進一步的泛化。通常資料探勘系統都預置這一閾值(一般為10到30
) 這兩個技術可以序列使用,即首先應用屬性閾值控制來泛化每個屬性;然後再應用泛化關係閾值控制來進一步減少泛化關係的(規模)大小。
4.關聯規則
定義1 關聯規則挖掘的資料集記為 d (d
一般為事務資料庫),
d=},其中
k=1,
2,…,n 。
tk={i1,
i2,…,
ij,…,
ip}為乙個事務;
tk中的元素
ij (j=1,2,
…,p)
稱為專案
(item)。
定義2 設i=是
d中全體專案組成的集合,稱為項集。
i的任何子集
x( x i )稱為d
中的專案集
(itemset)
。若|x|=k
,則稱集合x為
k項集。設
ti 和
x分別為
d中的事務和專案集,如果
x ti
,則稱事務
ti 包含專案集
x。顯然,
ti i。
5.關聯知識反映乙個事件和其他事件之間依賴或相互關聯的知識,如果兩項或多項屬性之間存在關聯,那麼其中一項的屬性值就可以依據其他屬性值進行**。
6.關聯規則挖掘就是從大量的資料中挖掘出有價值描述資料項之間相互聯絡的有關知識。隨著收集和儲存在資料庫中的資料規模越來越大,人們對從這些資料中挖掘相應的關聯知識越來越有興趣。例如:從大量的商業交易記錄中發現有價值的關聯知識就可幫助進行商品目錄的設計、交叉營銷或幫助進行其它有關的商業決策。
7.挖掘關聯知識的乙個典型應用例項就是市場購物分析
「什麼商品組或集合顧客多半會在一次購物時同時購買」
給定:
事務資料庫, 每個事務是一系列商品(乙個消費者一次購買的物品)
找到:
所有 的規則,這些規則能夠表明這些列商品和另一系列商品相關。
e.g., 購買汽車配件的人中有
98%會購買汽車服務
應用:*→ maintenance agreement (那些商品能夠加強日常消費?)
家用電器 →* (那些商品應該保持高庫存?)
規則中的置信度和支援度
置信度(正確率)低
置信度(正確率)高
支援度(覆蓋率)高
規則很少是正確的,但可以使用
規則多數情況下是正確的,而且可以經常使用
支援度(覆蓋率)低
規則很少是正確的,一般不被使用
規則多數情況下是正確的,但很少被使用
資料探勘學習筆記四
1.星型結構 star schema 將事實表和維表進行連線 join 可以得到資料的值以及對資料的多維描述.2.雪花模型 snowflake schema 由 星型模型 演變來的,某些維表是規範化的,以便減少冗餘.3.星座模型 在星型模型的基礎上,具有多個事實表.4.雪暴模型 在星座模型的基礎上,...
資料探勘學習筆記(四)
資料的屬性 1.資料物件 資料物件又稱為樣本 例項 資料點 物件或元組。資料物件用屬性描述。資料表的行對應資料物件,列對應屬性。2.屬性 attributes 3.屬性型別 二元屬性 binary attribute 布林屬性 序數屬性 ordinal attribute 數值屬性 numeric ...
STM32學習筆記(四)定時器配置及中斷
void tim4 init uint16 t period,uint16 t prescaler tim4 init 1000,72 72分頻,頻率1mhz,1000計數,週期1ms tim period 設定了在下乙個更新事件裝入活動的自動重裝載暫存器週期的值。它的取值必須在 0x0000 和0...