本實驗是基於關聯和決策樹在資料探勘中的應用。通過該實驗,能夠客觀實際地理解關聯分析和決策樹的相關知識。
首先進行的是關聯分析,之後利用關聯分析的資料建立乙個決策樹。
(1)開啟並檢視資料檔案。利用「可變檔案」節點將「
demos
」下的「
baskets1n
」新增節點中。然後使用「輸出」選項卡下的「表」檢視資料,如圖
41 所示。這裡的資料是某商場中的購買記錄,共
18 個字段,
1000
條記錄,在後面的列中,值「
t」表示已購買該商品,值「
f」表示沒有購買該商品。
圖 41
「表」視窗
(2)確定關聯分析字段。在這裡中,需要對購買商品之間進行關聯分析,即確定客戶購買商品之間是否存在關聯性,也就是說客戶在購買一種商品時,購買另一種商品的概率是多少。所以,在這裡,將選擇記錄中能夠體現是否購買某商品的字段進行關聯分析,其中有
fruitveg,freshmeat,dairy,cannedveg,cannedmeat,frozenmeal,beer,wine,softdrink,fish,confectione ry
,共 11
個字段。
(3)11 個字段的角色設定為「兩者」,如圖 42。
圖 42
「型別」節點編輯視窗(
4)新增模型節點。分別在「型別」之後新增「
apriori
」模型節點和「
crama
」模型節點,如圖
43 所示。其中,「
apriori
」模型是基於「最低支援度」和「最小置信度」進行關聯性分析。
圖 43
工作區中的「
apriori
」模型和「
crama
」模型
(5)執行並檢視「
apriori
」關聯模型結果。執行「
apriori
」模型的資料流,在右上側生成資料模型,右鍵檢視,如圖
44 所示。表中可以看出,客戶同時購買
frozenmeal
、beer
、 cannedveg
的概率很高。因此,商家可以將這三種商品放在相鄰的位置,以促進銷量。
圖 44 apriori
」模型檢視視窗
(6)執行並檢視「
carma
」關聯模型結果。執行「
carma
」模型的資料流,在右上側生成資料模型,右鍵檢視,如圖
45 所示。同樣可以看出,客戶同時購買
frozenmeal
、beer
、 cannedveg
的概率很高。
圖 45
「carma
」模型檢視視窗
(7)利用「網路」圖進行定性關聯分析。選定「型別」節點,雙擊「圖形」選項卡下的「網路」,既可新增「網路節點」。然後,需雙擊編輯
「網路」節點,將步驟(
5)中選擇的
11 個字段選定為分析字段。執行該「網路」節點,則右上區域生成關聯模型,檢視該關聯模型,如圖
46。從圖中表明,兩點之間的線越粗,表示兩者間相關性越強。同時可以通過調節下面的滑動點,檢視相關性。
圖 46
「關聯」模型檢視視窗
IBM SPSS Modeler隨機森林演算法介紹
在之前的文章 bagging 或boosting讓你的模型更加優化 中,我們介紹了可以通過bagging或boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林演算法,本身的演算法邏輯已經使用了bagging技術,來構建多棵樹,最終實現構建 森林 的目的。首先我們先來了解下這個...
IBM SPSS Modeler資料庫內建模
ibm spss modeler server支援對資料庫 商的資料探勘工具和建模工具進行整合,其中包括ibm netezza ibm db2 infosphere warehouse oracle data miner和microsoft analysis services。實現了在ibm sps...
IBM SPSS Modeler資料庫內建模
ibm spss modeler server支援對資料庫 商的資料探勘工具和建模工具進行整合,其中包括ibm netezza ibm db2 infosphere warehouse oracle data miner和microsoft analysis services。實現了在ibm sps...