作為乙個應用驅動的領域,資料探勘吸納了諸如統計學、機器學習、模式識別、資料庫和資料倉儲、資訊檢索、視覺化、演算法、高效能計算和許多應用領域的大量技術(見圖i. m )。資料探勘研究與開發的邊緣學科特性極大地促進了資料探勘的成功和廣泛應用。本節我們給出一些對資料探勘方法的發展具有重要影響的學科例子。
- 統計學
統計學研究資料的收集、分析、解釋和表示。資料探勘與統計學具有天然聯絡。
統計模型是一組數學函式,它們用隨機變數及其概率分布刻畫目標類物件的行為。統計模型廣泛用於對資料和資料類建模。例如,在像資料特徵化和分類這樣的資料探勘任務中,可以建立目標類的統計模型。換言之,這種統計模型可以是資料探勘任務的結果。反過來,資料探勘任務也可以建立在統計模型之上。例如,我們可以使用統計模型對雜訊和缺失的資料值建模。於是,在大資料集中挖掘模式時,資料探勘過程可以使用該模型來幫助識別資料中的雜訊和缺失值。
- 機器學習
資料探勘與機器學習有許多相似之處。對於分類和聚類任務,機器學習研究通常關注模型的準確率。除準確率之外,資料探勘研究非常強調挖掘方法在大型資料集上的有效性和可伸縮性,以及處理複雜資料型別的辦法,開發新的、非傳統的方法。
- 資料庫系統與資料倉儲
資料庫系統研究關注為單位和終端使用者建立、維護和使用資料庫。特別是,資料庫系統研究者們已經建立了資料建模、查詢語言、查詢處理與優化方法、資料儲存以及索引和訪問方法的公認原則。資料庫系統因其在處理非常大的、相對結構化的資料集方面的高度可伸縮性而聞名。
- 資訊檢索
資料探勘技術
關於資料探勘的概念,目前業界沒有統一的定義。首先從技術角度來講,資料探勘就是從大量的 不完全的 有雜訊的 模糊的 隨機的實際應用資料中,提取隱含在其中的人們事先不知道的 但有存在有用的資訊和知識的過程。其次從商業角度來看,它是一種新的商業資訊處理技術,其主要是從商業資料庫中的大量業務資料進行取 轉換...
資料探勘技術
摘自 資料探勘與資料化運營實戰,思路 方法 技巧與應用 神經網路 通過輸入多個非線性模型以及不同模型之間的加權互聯 加權的過程在隱蔽層完成 最終得到乙個輸出模型。其中,隱蔽層所包含的就是非線性函式。神經網路作為分類 問題的重要技術支援 在使用者劃分 行為 營銷響應等諸多方面具有廣泛的應用前景。以下5...
資料探勘技術
資料探勘技術 1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就...