20世紀60年代,從檔案處理演化到資料庫系統;
20世紀70年代,演化到關聯式資料庫,聯機事務處理(oltp)將查詢看做唯讀事務;
80年代中期到現在,研究分布性、多樣性和資料共享等問題,還有基於internet的全球資訊系統;
80年代後期到現在,出現的資料庫結構是資料倉儲,可將多個一種資料來源在單個站點以統一的模式組織儲存;資料倉儲技術包括資料清理、資料整合 和 聯機分析處理(olap);資料倉儲通過資料處理、資料變換、資料整合、資料裝入、和定期資料重新整理來構造;
90年代到現在,基於web的資料庫系統,基於xml的資料庫系統和web挖掘;
有趣的模式表示知識。模式興趣度的客觀度量有 規則的支援度(support)(滿足規則的樣本百分比)和置信度(confidence)(規則成立的條件概率p(y|x) ),通常與閾值關聯。
資料探勘研究還發表在 資料庫、統計學、機器學習和資料視覺化 的雜誌上。
據統計 在乙個完整的資料探勘過程中 資料預處理要花費 60%左右的時間 而後的挖掘工作僅佔總工作量的 10%左右 資料預處理主要包括資料清理,整合和歸約.
資料清理是處理資料中的遺漏和清洗髒資料 .
資料整合將多資料來源中的資料進行合併處理 解決語義模糊性並整合成一致的資料儲存 .
資料歸約將辨別出需要挖掘的資料集合 縮小處理範圍 .
關聯分析
關聯分析主要是為了得到資料內部的隱含的關聯模式,通常以a=>b表示。
主要演算法是 經典頻集(apriori)演算法,但是它存在無法平行計算,效率低的問題,改進演算法有,基於分塊的(partition),基於hash的,還有取樣和減少交易數法aprioritid。
針對候選集大的問題,有fp-growth方法。針對稀有特徵無法分析問題,則在計算特徵是引入hash方法。
分類
分類是資料探勘中很重要的乙個方向,一般是根據已有樣本訓練生成分類器,然後對其他物件進行分類。
主要演算法有:
決策樹法:id3 ; c4.5 ;sliq ;sprint ;
rainforest 演算法框架,這個框架可以減少演算法的記憶體占用,加快執行速度,但是準確性由使用此框架的演算法決定;
統計方法,基於bayes:nb;tan;
機器學習方法:神經網路;支援向量機;粗集理論;遺傳演算法等。
其他:car;lb;對資料庫操作的mind。
聚類
聚類是在資料內部尋找相似度,分成若干簇,簇內相似度高,簇與簇之間差別大。下面內容參考賀 玲,吳玲達,蔡益朝的《資料探勘中的聚類演算法綜述》一文。
聚類演算法的改進可以考慮以下方面:
(1) 融合不同的聚類思想形成新的聚類演算法, 從而綜合利用不同聚類演算法的優點。
(2) 處理大規模資料和高維資料的能力, 這是多**資料探勘中聚類演算法必須解決的關鍵問題。
(3) 對聚類的結果進行準確評價, 以判斷是否達到最優解, 這也自然要求聚類結果具有可解釋性。
(4) 選取合適的聚類類別數, 這是乙個重要的引數。它的確定應更多地依賴於相關的經驗知識以及對目標資料集所進行的必要的預處理。
(5) 對資料進行合理的預處理。該過程包括對高維資料以及對大規模資料建立索引等, 它不僅是實現 (4) 的前提之一, 也為獲得更準確的聚類結果提供了乙個重要的手段。
(6) 在聚類過程中使用合適的相似計算公式及評價準則。合理的相似性評判準則對聚類結果的準確性起著不容忽視的作用。
(7) 將領域知識引入聚類過程。領域知識的引入不僅有助於選擇合適的模式表達機制、 選擇合適的聚類演算法, 還能使以上很多方面的問題都能得到合理的解決, 從而提高相應的聚類演算法的效能。
時間序列資料探勘
主要指在資料探勘過程中考慮資料間的時間關係。主要研究一下幾個方面:
時間序列相似性搜尋;
時間序列聚類和分類;
時間序列相關規則提取和模式分析;
海量時間序列視覺化;
時間序列**;等
時間序列**技術大體分為
線性時間序列**技術,主要是利用數學方法建立隨機模型,如自回歸模型、自回歸滑動平均模型等進行**;
非線性時間序列**技術主要採用嵌入空間法和神經網路方法等,特別是 混沌時間序列** 和 神經網路的時間序列**;
當然還有一些其他技術,如 滑動視窗二次自回歸模型,基於雲模型的時間序列**等。
資料探勘導論
誤差平方均值,越小越好 從大家直觀的感受,這三個模型哪個更好?左上?右上?還是左下?右上,因為左下有可能過擬合。最下面的模型過於強調特定點的誤差了。雜訊點也被擬合了。我們用什麼樣的手段,來幫助我們發現過擬合?擬合曲線的引數過多。分訓練集和測試集,設定測試資料用於判斷擬合的情況。泛化誤差 模型在新樣本...
資料探勘導論 (二)
序數 能確定物件的序,即大小關係。例 礦石程度 好,較好,最好 區間 可以進行差值比較。例 日曆日期 比例 除了能進行差值比較還能進行比率比較 例 長度 測量誤差 記錄的值與實際值不同 誤差 測量值 實際值 資料收集錯誤 遺漏資料或者不當地包含了其他資料 雜訊 測量誤差的隨機部分,使值被扭曲或者加入...
資料探勘導論 (三)
頻率 分類屬性的眾數 具有最高頻率的值 第1步 以遞增順序排列原始資料 即從小到大排列 第2步 計算指數i np 第3步 l 若 i 不是整數,將 i 向上取整。大於i的毗鄰整數即為第p百分位數的位置。2 若i是整數,則第p百分位數是第i項與第 i l 項資料的平均值。按照上述的計算公式i n p ...