資料探勘領域的十大挑戰問題

2021-08-27 12:14:00 字數 1214 閱讀 2196

資料探勘(data mining,dm)又稱資料庫中的知識發現(knowledge discover in database,kdd),是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料, 做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

知識發現過程由以下三個階段組成:(1)資料準備,(2)資料探勘,(3)結果表達和解釋。

資料探勘是 通過分析每個資料,從大量資料中尋找其規律的技術,主要有資料準備、規律尋找和規律表示3個步驟。資料準備是從相關的資料來源中選取所需的資料並整合成用於 資料探勘的資料集;規律尋找是用某種方法將資料集所含的規律找出來;規律表示是盡可能以使用者可理解的方式(如視覺化)將找出的規律表示出來。

資料探勘領域10大挑戰性問題:

1.developing a unifying theory of data mining  ( 資料探勘的統一理論框架的構建)

2.scaling up for high dimensional data/high speed streams  (高維資料和高速資料流的挖掘)

3.mining sequence data and time series data   (序列和時序資料的挖掘)

4.mining complex knowledge from complex data  (複雜資料中複雜知識的挖掘)

5.data mining in a network setting   (網路環境中的資料探勘)

6.distributed data mining and mining multi-agent data  (分布式資料和多**資料的挖掘)

7.data mining for biological and environmental problems   (生物和環境資料的挖掘)

8.data-mining-process related problems  ( 資料探勘過程中的相關問題處理)

9.security, privacy and data integrity   (資料探勘中資料安全、資料所涉及到的隱私和資料完整性的維護)

10.dealing with non-static, unbalanced and cost-sensitive data (非靜態、非平衡及成本敏感資料的挖掘)

資料探勘領域十大經典演算法

2009年,wu xindong 出版的一本書名叫 the top ten algorithms in data mining,裡面有關於演算法的介紹 一 c4.5,分類決策樹演算法 二 the k means algorithm 即k means演算法,聚類演算法 三 support vector...

資料探勘十大演算法

資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...

資料探勘的十大演算法

按照不同的目的將演算法分成四類 分類演算法 c4.5 樸素貝葉斯,svm,knn adaboost cart 聚類演算法 k means em 關聯分析 apriori 連線分析 pagerank c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處...