ibm spss modeler server支援對資料庫**商的資料探勘工具和建模工具進行整合,其中包括ibm netezza、ibm db2 infosphere warehouse、oracle data miner和microsoft analysis services。實現了在ibm spss modeler的分析功能和易用性將與資料庫的功能和效能相結合,同時還兼備資料庫**商提供的資料庫自有演算法。模型在資料庫建立,然後可以借助ibm spss modeler介面以正常方式瀏覽模型並為之評分。
那麼使用ibm spss modeler訪問資料庫自有演算法有什麼優勢呢?主要是兩方面:
1.資料庫內的演算法常常與資料庫伺服器緊密整合,這有助於提高效能。
2.在「資料庫內」構建和儲存的模型不僅由可訪問資料庫的應用程式共享,且更易於在這些應用程式中部署。
接下來我們以microsoft analytics services為例,介紹如何配置以及使用資料庫內建模功能。
ibm spss modeler支援整合下列analysis services演算法包括:
決策樹聚類
關聯規則
樸素貝葉斯
線性回歸
神經網路
logistic回歸
時間序列
序列聚類
安裝與配置:
在您的機器上,必須安裝以下模組:
ibm spss modeler client
ibm spss modeler server
microsoft analysis services,與相應資料庫建立odbc連線
配置ibm spss modeler:
在ibm spss modeler中,在選單欄的工具–>選項–>幫助應用程式,選擇microsoft面板,如下圖:
勾上之後,會在下面的面板節點上多了一項資料庫建模,列出了microsoft analysis services支援的資料庫內建模演算法,如下圖:
配置 sql server
該配置可實現在資料庫內進行評分。
在 sql server 主機上建立以下登錄檔鍵:
hkey_local_machine\software\microsoft\mssqlserver\providers\msolap
為該鍵新增如下 dword 鍵值:
allowinprocess 1
完成上述更改後,重新啟動sql server。
配置microsoft analysis services
建立ibm spss modeler 與microsoft analysis services 進行通訊。
通過ms sql server management studio 登入到分析伺服器。
訪問「屬性」對話方塊,右鍵單擊伺服器名稱,然後選擇屬性。
選中顯示高階(所有)屬性核取方塊。
更改以下屬性:
將 datamining\allowadhocopenrowsetqueries 的值更改為 true(預設值為false)。
將 datamining\allowprovidersinopenrowset 的值更改為 [all] (無預設值)。
為sql server 建立 odbc dsn
通過使用 microsoft sql native client odbc 驅動程式,建立乙個指向資料探勘過程中使用的 sql server 資料庫的 odbc dsn。餘下的驅動程式設定應使用預設設定。
對於此dsn,請確保選中了使用整合的 windows 認證。
啟用 sql 生成和優化
從ibm spss modeler選單中選擇:工具—>流屬性—>選項—>優化面板,勾選上所有選項內容如下圖:
使用microsoft analysis services 演算法生成模型
以上內容配置完成後,即可使用資料庫內的演算法生成模型。如下圖:
源節點從sql server資料庫中讀取,終端節點又寫回到sql server資料庫中,中間使用的是microsoft的決策樹演算法,整個計算過程都在資料庫中實現。
介紹到這裡,我們就了解了,如何使用資料庫內演算法進行建模的過程,經常會有朋友問說,使用這裡的決策樹演算法和使用ibm spss modeler封裝好的決策樹演算法,結果會有什麼不同?**結果當然是會有差異的了。本身決策樹演算法就包含多種,像c&r、chaid、c5.0、quest等,每個演算法計算邏輯就不一樣,因此計算得到的結果自然也不一樣,前面我們已經介紹過c&r、chaid、c5.0這三種演算法,他們核心的差異就是選擇最佳分組變數和分割點的標準,而microsoft analysis services決策樹是使用線性回歸來確定決策樹分割位置,它可以用於分類屬性和連續屬性的**建模。那麼到底選擇什麼演算法為優呢,前面已經介紹了,使用資料庫內建模的好處,大家可以綜合考慮,結合實際場景和資料**結果的評估再做選擇。
IBM SPSS Modeler隨機森林演算法介紹
在之前的文章 bagging 或boosting讓你的模型更加優化 中,我們介紹了可以通過bagging或boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林演算法,本身的演算法邏輯已經使用了bagging技術,來構建多棵樹,最終實現構建 森林 的目的。首先我們先來了解下這個...
IBM SPSS Modeler 5 關聯分析
本實驗是基於關聯和決策樹在資料探勘中的應用。通過該實驗,能夠客觀實際地理解關聯分析和決策樹的相關知識。首先進行的是關聯分析,之後利用關聯分析的資料建立乙個決策樹。1 開啟並檢視資料檔案。利用 可變檔案 節點將 demos 下的 baskets1n 新增節點中。然後使用 輸出 選項卡下的 表 檢視資料...
IBM SPSS Modeler資料庫內建模
ibm spss modeler server支援對資料庫 商的資料探勘工具和建模工具進行整合,其中包括ibm netezza ibm db2 infosphere warehouse oracle data miner和microsoft analysis services。實現了在ibm sps...