IBM SPSS Modeler資料庫內建模

2021-09-01 13:26:01 字數 2553 閱讀 5388

ibm spss modeler server支援對資料庫**商的資料探勘工具和建模工具進行整合,其中包括ibm netezza、ibm db2 infosphere warehouse、oracle data miner和microsoft analysis services。實現了在ibm spss modeler的分析功能和易用性將與資料庫的功能和效能相結合,同時還兼備資料庫**商提供的資料庫自有演算法。模型在資料庫建立,然後可以借助ibm spss modeler介面以正常方式瀏覽模型並為之評分。

那麼使用ibm spss modeler訪問資料庫自有演算法有什麼優勢呢?主要是兩方面:

1.資料庫內的演算法常常與資料庫伺服器緊密整合,這有助於提高效能。

2.在「資料庫內」構建和儲存的模型不僅由可訪問資料庫的應用程式共享,且更易於在這些應用程式中部署。

接下來我們以microsoft analytics services為例,介紹如何配置以及使用資料庫內建模功能。

ibm spss modeler支援整合下列analysis services演算法包括:

決策樹聚類

關聯規則

樸素貝葉斯

線性回歸

神經網路

logistic回歸

時間序列

序列聚類

安裝與配置:

在您的機器上,必須安裝以下模組:

ibm spss modeler client

ibm spss modeler server

microsoft analysis services,與相應資料庫建立odbc連線

配置ibm spss modeler:

在ibm spss modeler中,在選單欄的工具–>選項–>幫助應用程式,選擇microsoft面板,如下圖:

勾上之後,會在下面的面板節點上多了一項資料庫建模,列出了microsoft analysis services支援的資料庫內建模演算法,如下圖:

配置 sql server

該配置可實現在資料庫內進行評分。

在 sql server 主機上建立以下登錄檔鍵:

hkey_local_machine\software\microsoft\mssqlserver\providers\msolap

為該鍵新增如下 dword 鍵值:

allowinprocess 1

完成上述更改後,重新啟動sql server。

配置microsoft analysis services

建立ibm spss modeler 與microsoft analysis services 進行通訊。

通過ms sql server management studio 登入到分析伺服器。

訪問「屬性」對話方塊,右鍵單擊伺服器名稱,然後選擇屬性。

選中顯示高階(所有)屬性核取方塊。

更改以下屬性:

將 datamining\allowadhocopenrowsetqueries 的值更改為 true(預設值為false)。

將 datamining\allowprovidersinopenrowset 的值更改為 [all] (無預設值)。

為sql server 建立 odbc dsn

通過使用 microsoft sql native client odbc 驅動程式,建立乙個指向資料探勘過程中使用的 sql server 資料庫的 odbc dsn。餘下的驅動程式設定應使用預設設定。

對於此dsn,請確保選中了使用整合的 windows 認證。

啟用 sql 生成和優化

從ibm spss modeler選單中選擇:工具—>流屬性—>選項—>優化面板,勾選上所有選項內容如下圖:

使用microsoft analysis services 演算法生成模型

以上內容配置完成後,即可使用資料庫內的演算法生成模型。如下圖:

源節點從sql server資料庫中讀取,終端節點又寫回到sql server資料庫中,中間使用的是microsoft的決策樹演算法,整個計算過程都在資料庫中實現。

介紹到這裡,我們就了解了,如何使用資料庫內演算法進行建模的過程,經常會有朋友問說,使用這裡的決策樹演算法和使用ibm spss modeler封裝好的決策樹演算法,結果會有什麼不同?**結果當然是會有差異的了。本身決策樹演算法就包含多種,像c&r、chaid、c5.0、quest等,每個演算法計算邏輯就不一樣,因此計算得到的結果自然也不一樣,前面我們已經介紹過c&r、chaid、c5.0這三種演算法,他們核心的差異就是選擇最佳分組變數和分割點的標準,而microsoft analysis services決策樹是使用線性回歸來確定決策樹分割位置,它可以用於分類屬性和連續屬性的**建模。那麼到底選擇什麼演算法為優呢,前面已經介紹了,使用資料庫內建模的好處,大家可以綜合考慮,結合實際場景和資料**結果的評估再做選擇。

IBM SPSS Modeler隨機森林演算法介紹

在之前的文章 bagging 或boosting讓你的模型更加優化 中,我們介紹了可以通過bagging或boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林演算法,本身的演算法邏輯已經使用了bagging技術,來構建多棵樹,最終實現構建 森林 的目的。首先我們先來了解下這個...

IBM SPSS Modeler 5 關聯分析

本實驗是基於關聯和決策樹在資料探勘中的應用。通過該實驗,能夠客觀實際地理解關聯分析和決策樹的相關知識。首先進行的是關聯分析,之後利用關聯分析的資料建立乙個決策樹。1 開啟並檢視資料檔案。利用 可變檔案 節點將 demos 下的 baskets1n 新增節點中。然後使用 輸出 選項卡下的 表 檢視資料...

IBM SPSS Modeler資料庫內建模

ibm spss modeler server支援對資料庫 商的資料探勘工具和建模工具進行整合,其中包括ibm netezza ibm db2 infosphere warehouse oracle data miner和microsoft analysis services。實現了在ibm sps...