資料探勘的任務是從資料中發現模式。模式按功能分為**型(predictive)和描述型(descriptive),而按實際作用可分為以下6種:
(1)分類模式分類模式把資料集中的資料項對映到某個給定的類上,如決策樹方法、統計方法及粗糙集方法等。
(2)回歸模式分類模式的**值是離散的,回歸模式的**值是連續的。
(3)關聯模式關聯模式(association model)用於發現事物間的關聯規則,或稱相關程度。
(4)時間序列模式時間序列模式根據資料隨時間變化的趨勢,發現某一時間段內資料的相關處理模型,**將來可能出現值的分布。
(5)聚類模式聚類模式對事先並不知道分組及怎樣分組,而是按某種原則將資料劃分組,要求組之間差別盡可能大,組內差別盡可能小。
(6)序列模式序列模式與關聯模式相仿,差別在於資料間關聯性與時間聯絡起來。即不僅需知道事件是否發生,而且需確定事件發生的時間。
資料探勘的方法
(1)統計分析方法統計分析方法是利用統計學、概率論的原理對關係中各屬性進行統計分析,從而找出它們之間的關係和規律。
(2)遺傳演算法遺傳演算法是模擬生物在自然環境中的遺傳和進化過程而形成的一種自適應全域性優化概率搜尋演算法。它最早由美國密執安大學的holland教授提出,具有計算簡單、優化效果好的特點,它在處理組合優化問題方面也有一定的優勢,可用於聚類分析等。
(3)粗糙集方法粗糙集理論是波蘭pawlak z教授在 2023年提出的一種智慧型決策分析工具,它是一種刻劃不完整性和不確定性的數學工具,它能有效地分析不精確、不一致、不完整等各種不完備的資訊。粗糙集方法被廣泛應用幹不精確、不確定、不完全的資訊的分類和知識獲取。
(4)決策樹方法決策樹方法就是利用訓練集生成乙個測試函式,根據不同取值建立樹的分支;在每個分支子集中重複建立下層結點和分支。這樣便生成一棵決策樹,然後對決策樹進行剪枝處理,最後把決策樹轉化為規則,決策樹方法主要用於分類挖掘。
(5)神經網路方法它模擬人腦神經元結構,以mp模型和hebb規則為基礎,建立了三大類多種神經網路模型。 1. 前饋式網路 它以感知機、反向傳播模型、函式網路為代表,可用於**、模式識別等方面。 2. 反饋式網路它以hopfield的離散模型和連續模型為代表,分別用於聯想和優化計算。 3.自組織網路它以art模型、koholon模型為代表,用於聚類。
(6)模糊邏輯模糊數學研究的是「亦此亦彼」的模糊性。模糊數學是繼經典數學、統計數學之後,在數學上的又一新的發展。在資料探勘領域,模糊邏輯可以進行模糊綜合判別、模糊聚類分析等。
(7)聚類分析聚類分析是根據事物的特徵對其進行聚類或分類,即所謂物以類聚。以期從中發現規律和典型模式。通過聚類以後,資料集就轉化為類集,同一類的資料具有相似的變數值,不同類的資料的變數值不具有相似性。這類技術是資料探勘的最重要技術之一。除傳統的基於多元統計分析的聚類方法外,近年來模糊聚類和神經網路聚類方法也有了長足的發展。
(8)最近鄰技術通過k個與之最相近的歷史記錄的組合來辨別新記錄。這種技術可用作聚類、偏差分析等資料探勘任務。
(9)視覺化技術這是一類輔助方法。它採用比較直觀的圖形圖表方式將挖掘出來的模式表現出來。資料視覺化大大擴充套件了資料的表達能力從而易於為人們所理解。這在資料探勘中非常重要,視覺化技術正受到日益廣泛的重視。
資料探勘方法
資料探勘方法 分類決策樹 id3演算法 c4.5演算法 c5.0演算法 cart演算法 支援向量機 聚類k means演算法 twostep演算法 關聯規則 apriori演算法 fp tree演算法 carma演算法 序列模式演算法 篩選特徵選擇演算法 異常檢測演算法 回歸分析 線性回歸 邏輯回歸...
資料探勘方法比較
一 可解釋性和應用廣泛性 1 決策樹 簡單直觀,邏輯性強,易於理解和應用,廣泛使用。2 神經網路 可解釋性差,遠沒有決策樹和回歸應用廣泛。3 logistic回歸 更為成熟 應用更為廣泛,具有強大的活力和最廣泛的業務應用基礎。二 缺失值和異常值敏感情況 1 決策樹 對缺失值幾乎不做處理即可應用,不易...
資料探勘常用方法
原文出自 1 分類。分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類 趨勢 中,如 商鋪將使用者在一段時間內的購買情況劃分成不同的類,根據情況向使用者推薦關聯類的商品,從而增加商鋪的銷...