元規則的作用是什麼?
元規則使得使用者可以說明他們感興趣的規則的語法形式。規則的形式可以作為約束,幫助提高
挖掘的效能。也是說,它挖掘一種規則的形式(或者說,屬性的組合模式而不是這種組合本身。)
那麼如何使用元規則指導挖掘過程呢?
首先元規則的模板:
p1&&p2&&…pl=>q1&&q2&&…qr
所以元規則的謂詞的總數是(l+r),為了找出滿足這個模板的維間關聯規則:需要注意下面兩點:
需要找出所有的頻繁p-謂詞集 lp。
還需要lp中的l-謂詞集的支援度計數,方便計算lp匯出的規則的置信度。
單調的反單調的
簡潔的約束
可轉變的約束
不可轉變的約束
什麼是反單調的模式剪枝約束?
如果乙個項集不滿足該規則約束,那麼它的任何超集也不滿足該規則約束。
eg:min(j.price)>=50,一旦存在乙個項集中有小於50的**,那麼它的所有超集都不滿則
這個約束了。
count(i)<=10 等等都是如此。
策略是什麼?
減掉對其後挖掘過程中可滿足模式的產生沒有貢獻的資料片段。
兩個性質:
資料的簡潔性
資料的反單調性
什麼是資料的反單調性?
在挖掘過程中,如果基於當前模式,乙個資料項不滿足資料反單調性約束,則可以減掉它。
我們剪掉它,因為在剩下的挖掘過程中,它不能對當前模式的超模式的產生有任何形式的貢獻。
因此,我們說,資料反單調性對搜尋空間剪枝僅限於基於模式增長的挖掘演算法。
頻繁序列模式挖掘
序列模式是頻繁模式的一種特殊情況,它們的應用範圍完全不一樣!如 購買物品 尿布 啤酒 可樂 麵包 尿布 啤酒 上述購物清單是兩個使用者的購物清單,根據上面的清單,我們可以發現尿布和啤酒組合起來一起購買的情況較多,因此超市可以根據這樣的頻繁項集分析,將尿布和啤酒放在較近的地方,或者將尿布和啤酒同時 等...
頻繁模式挖掘 Apriori演算法
dm實驗,寫的比較二,好多情況還沒有考慮,後續有時間會修改。開始的時候資料結構沒設計好導致寫到後面費了很大的勁 不過還好python的列表有起死回生的功效 資料集 database.txt i1,i2,i5 i2,i4 i2,i3 i1,i2,i4 i1,i3 i2,i3 i1,i3 i1,i2,i...
關聯規則 頻繁模式挖掘
基本概念 二院表示 每一行對應乙個事務,每一列對應乙個項,項用二元變數表示 項集 包括0個或多個項的集合,包含k個稱為k 項集 事物的寬度 事務中項的個數 頻繁項集 滿足最小支援度閾值的所有項集 強規則 頻繁項集中提取出的高置信度的規則 關聯規則三個指標 support 支援度 表示a和b的事務所佔...