1.非對稱的二元變數:通常認為項在事務**現比不出現重要
2.支援度計數:包含某個項集的事務的個數
3.支援度和置信度:
支援度:
1.支援度和置信度的作用與區別:
支援度往往反映了關聯規則在總事務**現的頻繁程度,因此支援度過低的規則往往作用不大,因為只是偶然出現。
置信度反映的是對於關聯規則x->y,若置信度越高,則y在包含x的事務**現的概率越大。
2.關聯規則的發現:
找出支援度大於minsup和置信度大於minconf的規則。
所以,關聯規則的發現一般分為兩個任務:
這兩個任務都會產生很大的開銷,其中任務1)的開銷會遠大於任務2),對於這兩個任務我們都會採取相應的方法減少開銷。
**關聯分析的大綱就是關於如何執行這兩個任務,並盡可能減少兩個任務開銷而展開的:
其中,任務1)(選出頻繁項集)的過程:
apriori演算法:
選出候選項集(涉及產生候選項集,剪枝來減少計算開銷)
從候選項集中選出頻繁項集(涉及支援度計數的方法來減少開銷)
fp增長演算法:
fp樹的產生
從fp樹中選出頻繁項集
任務2)(規則產生)的過程:
apriori演算法規則的產生
六 關聯分析 基本概念和演算法1
啤酒尿布問題 二元表示 項集 事務和支援度計數 包含0個或多個項的集合被稱為項集,k 項集 真實存在的項集稱為事務 包含特定項集的事務個數稱為項集的支援度計數。關聯規則 蘊含表示式x y 關聯規則的強度 支援度和置信度,支援度可以用於給定資料集的頻繁程度,置信度確定y包含x的事務中出現的頻繁程度。關...
HDFS原理分析(一) 基本概念
hdfs是hadoop distribute file system 的簡稱,也就是hadoop的乙個分布式檔案系統。一 hdfs的主要設計理念 1 儲存超大檔案 這裡的 超大檔案 是指幾百mb gb甚至tb級別的檔案。2 最高效的訪問模式是 一次寫入 多次讀取 流式資料訪問 hdfs儲存的資料集作...
檔案(一) 基本概念和操作
屬性 描述乙個客體某一方面特徵的資料資訊 字段 資料項 記錄 反映乙個客體資料資訊的集合 屬性的集合 檔案 具有相同屬性定義的記錄的集合 關鍵字 區分不同記錄的屬性或屬性組 有主次關鍵字之分 記錄呈現在使用者眼前的排列的先後次序關係 使用者看到的,一種線性結構 檔案在儲存介質上的組織方式,有如下幾種...