資料探勘(data mining,dm)又稱資料庫中的知識發現(knowledge discover in database,kdd),是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料, 做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
知識發現過程由以下三個階段組成:(1)資料準備,(2)資料探勘,(3)結果表達和解釋。
資料探勘是 通過分析每個資料,從大量資料中尋找其規律的技術,主要有資料準備、規律尋找和規律表示3個步驟。資料準備是從相關的資料來源中選取所需的資料並整合成用於 資料探勘的資料集;規律尋找是用某種方法將資料集所含的規律找出來;規律表示是盡可能以使用者可理解的方式(如視覺化)將找出的規律表示出來。
資料探勘領域10大挑戰性問題:
1.developing a unifying theory of data mining ( 資料探勘的統一理論框架的構建)
2.scaling up for high dimensional data/high speed streams (高維資料和高速資料流的挖掘)
3.mining sequence data and time series data (序列和時序資料的挖掘)
4.mining complex knowledge from complex data (複雜資料中複雜知識的挖掘)
5.data mining in a network setting (網路環境中的資料探勘)
6.distributed data mining and mining multi-agent data (分布式資料和多**資料的挖掘)
7.data mining for biological and environmental problems (生物和環境資料的挖掘)
8.data-mining-process related problems ( 資料探勘過程中的相關問題處理)
9.security, privacy and data integrity (資料探勘中資料安全、資料所涉及到的隱私和資料完整性的維護)
10.dealing with non-static, unbalanced and cost-sensitive data (非靜態、非平衡及成本敏感資料的挖掘)
資料探勘領域十大經典演算法
2009年,wu xindong 出版的一本書名叫 the top ten algorithms in data mining,裡面有關於演算法的介紹 一 c4.5,分類決策樹演算法 二 the k means algorithm 即k means演算法,聚類演算法 三 support vector...
資料探勘十大演算法
資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...
資料探勘的十大演算法
按照不同的目的將演算法分成四類 分類演算法 c4.5 樸素貝葉斯,svm,knn adaboost cart 聚類演算法 k means em 關聯分析 apriori 連線分析 pagerank c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處...