資料分析 APRIORI演算法

2021-09-16 19:01:53 字數 1351 閱讀 2709

支援度:指某個組合商品出現的次數與總數之間的比例

置信度:條件概念,在a發生的情況下,b發生的概率

提公升度: 提公升度(a->b) = 置信度(a->b)/支援度(b) 這是用來衡量a出現的情況下,是否會對b出現的概率有提公升。若提公升度大於1說明有,等於1說明沒有,小於1說明會導致b下降。

k=1,計算k項集的支援度

篩選掉小於最下支援度的項集

如果項集為空,則對應k-1項集的結果為最終結果,否則k=k+1重複1-3

可能產生大量的候選集2. 每次計算都需要重新掃瞄資料集,來計算每個項集的支援度3. 浪費大量的時間和空間

建立項頭表(包括專案、支援度),以及該項在fp樹中的鍊錶(初始為空)

構造fp樹,按照支援度從高到低的順序建立節點,節點如果存在就將計數countr+1 ,不存在就進行建立。

通過fp樹挖掘頻繁項集。

pip install efficient_aprioi
`### 核心**

itemset, rules = apriori(data, min_support, min_cofidence)
首先獲取王晶導演的電影,並且爬取電影的演員資訊,資訊如下(後面有時間我會寫如何獲取資訊):

# -*- coding: utf-8 -*-

from efficient_apriori import apriori

import pandas as pd

import numpy as np

df = pd.read_csv(

"ninghao.csv"

, encoding=

'utf-8-sig'

)stars = np.array(df[

'stars'])

data =

for star in stars:

names = star.split(

',')

new_name =

for name in names:

tmp = name[2:

-2]if

len(new_name)

>1:

print

(data)

itemsets, rules = apriori(data, min_support=

0.1, min_confidence=1)

print

(itemsets)

print

(rules)

結果如

Apriori演算法 關聯分析

apriori演算法是資料探勘演算法中的重要一員,它是通過對資料集進行關聯分析,從而分析出資料集裡項與項之間的關聯關係。演算法最簡單直接的應用,當屬對超市裡被購買的物品的關聯分析,從而挖掘出顧客購買產品及其附屬產品的關係,例如經典的尿布與啤酒,或者現在各大電商 上,當入手一樣物品後,會給推送來各種很...

資料探勘演算法 關聯分析二(Apriori)

上文說到,大多數關聯規則挖掘演算法通常採用的策略是分解為兩步 頻繁項集產生,其目標是發現滿足具有最小支援度閾值的所有項集,稱為頻繁項集 frequent itemset 規則產生,其目標是從上一步得到的頻繁項集中提取高置信度的規則,稱為強規則 strong rule 通常頻繁項集的產生所需的計算遠大...

關聯分析演算法Apriori介紹

apriori 演算法其名字是因為演算法基於先驗知識 prior knowledge 根據前一次找到的頻繁項來生成本次的頻繁項。apriori 是關聯分析中核心的演算法。apriori 演算法的特點 只能處理分類變數,無法處理數值型變數 資料儲存可以是交易資料格式 事務表 或者是事實表方式 資料 演...