簡單來說trie 就是乙個 ordered tree 排列依據 可以是 alpha 也可以是 數值。並且是 遞迴的。這樣的方式即可以大量壓縮同字首的串,也可以可容易作到子樹的融合。生成apiori的candidate 與接下來的刪枝 就可以在乙個樹上做了。演算法和**,****是《a fast apriori implementation》 ferenc bodon。 本來他在另一片文章中說,資料庫讀入記憶體後也用trie來存的這樣在每次生成k-item 之後就可以刪減 樣本資料庫的大小了,可是因為lack of time 就麼有做了-_-! 嗯,怎麼說呢,這就是學校的科研啊,出**是王道啊,實現?咳咳,該招個研究生了吧?
我之所以又回頭看看這個實現是因為跟同學聊天到現在 市面上 已經有了 2t 記憶體 3t硬碟的 筆記本了,進xp 是瞬間。差不多1萬刀。那麼硬體 那麼賤價了 拿來幹什麼好呢?那就算東西吧!以前在** bureaucracy 或者大學才有能力做的大規模資料分析工作,現在乙個hacker在家也能倒弄了。1萬刀雖然貴 但是比 小型機可是便宜太多了。設想一下,拿乙個t來存資料庫的trie ,設資料壓比例達到十,(如果是人名的話不希奇)那就有10995116277760byte 也就是說能存下1萬億個字,做什麼分析都行了。。。那麼從這個角度而言,計算機的發展的侷限也就越來越體現在軟體上了。。。。
our apriori implementation can be further improved
if trie is used to store reduced basket, and a reduced basket
is removed if it does not contain any candidate.
Apriori演算法 關聯分析
apriori演算法是資料探勘演算法中的重要一員,它是通過對資料集進行關聯分析,從而分析出資料集裡項與項之間的關聯關係。演算法最簡單直接的應用,當屬對超市裡被購買的物品的關聯分析,從而挖掘出顧客購買產品及其附屬產品的關係,例如經典的尿布與啤酒,或者現在各大電商 上,當入手一樣物品後,會給推送來各種很...
關聯分析的Apriori演算法 in Python
前面介紹的機器學習演算法均為監督學習方法,即 對於輸入資料x能 變數y 下面學習幾個非監督學習演算法,即回答 從資料x中能發現什麼 問題,這裡需要回答的x方面的問題可能是 構成x的最佳5個資料簇有哪些 或者 x中哪三個特徵最頻繁地一起出現 等。簡單的聚類方法 包括k均值聚類 就不贅述了,直接介紹兩個...
關聯分析演算法Apriori介紹
apriori 演算法其名字是因為演算法基於先驗知識 prior knowledge 根據前一次找到的頻繁項來生成本次的頻繁項。apriori 是關聯分析中核心的演算法。apriori 演算法的特點 只能處理分類變數,無法處理數值型變數 資料儲存可以是交易資料格式 事務表 或者是事實表方式 資料 演...