資料探勘方法比較

2021-07-12 05:57:35 字數 676 閱讀 9941

一、可解釋性和應用廣泛性

1、決策樹:簡單直觀,邏輯性強,易於理解和應用,廣泛使用。

2、神經網路:可解釋性差,遠沒有決策樹和回歸應用廣泛。

3、logistic回歸:更為成熟、應用更為廣泛,具有強大的活力和最廣泛的業務應用基礎。

二、缺失值和異常值敏感情況

1、決策樹:對缺失值幾乎不做處理即可應用,不易受到異常值影響。

2、神經網路:對缺失值敏感,需要對缺失值處理(賦值、替換或刪除),對異常值和雜訊不敏感。

3、logistic回歸:不能處理缺失值,需要對缺失值(賦值、替換或刪除),對異常值敏感,應刪除。

三、變數個數和質量的要求

1、決策樹:本身就是挑選變數的過程。

2、神經網路:少而精。

3、logistic回歸:變數篩選(向前引入法、向後剔除法、逐步回歸法)。

四、過擬合現象

相比於決策樹和邏輯回歸,神經網路可以挑選非線性關係,較好的擬合資料,也更容易過擬合。

五、模型診斷指標和措施

1、決策樹:貪心演算法。

2、神經網路,缺乏成熟的模型評判方案。

3、logistic回歸:豐富的指標判斷(roc、lift)。

資料探勘方法

資料探勘方法 分類決策樹 id3演算法 c4.5演算法 c5.0演算法 cart演算法 支援向量機 聚類k means演算法 twostep演算法 關聯規則 apriori演算法 fp tree演算法 carma演算法 序列模式演算法 篩選特徵選擇演算法 異常檢測演算法 回歸分析 線性回歸 邏輯回歸...

資料探勘分類演算法的比較

資料探勘新手常問的乙個問題是,這麼多演算法裡面該選用哪乙個?在沒有更多背景資訊給出時,如果追求 的準確程度,一般用支援向量機 svm 如果要求模型可以解釋,一般用決策樹。使用svm的時候選擇高斯核 即rbf kernel 同時要用交叉驗證 cross validation 選擇合適的模型引數。下面的...

資料探勘常用方法

原文出自 1 分類。分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類 趨勢 中,如 商鋪將使用者在一段時間內的購買情況劃分成不同的類,根據情況向使用者推薦關聯類的商品,從而增加商鋪的銷...