從整體上認識資料探勘

2021-08-09 12:00:02 字數 927 閱讀 4517

資料收集和資料儲存技術的快速進步,使得積累海量資料已成為家常便飯。然而,提取有用的資訊也成為巨大的挑戰。通常,由於資料量太大,無法使用傳統的資料處理工具和技術處理它。「資料探勘」技術由此產生,資料探勘技術,它將傳統的資料分析方法與處理大量資料的複雜演算法相結合,從而實現處理大量資料的目的。

資料探勘是在大型資料儲存庫中,自動的發現有用資訊的過程。資料探勘技術用來探查大型的資料庫,發現先前未知的有用模式。資料探勘還具有**未來觀測結果的能力。

資料探勘是資料庫中只是發現(konwledge discovery in database,kdd)不可缺少的一部分,而kdd是將未加工的資料轉換為有用資訊的整個過程,如下圖所示:

四、資料探勘任務:

通常資料探勘任務分為下面兩大類:

1、**任務。這些任務的目標是根據其他屬性的值,**特定屬性的值。被**的屬性一般稱為目標變數或因變數,而用來做**的屬性稱為說明變數或自變數。

2、描述任務。這裡,目標是匯出概括資料潛在聯絡的模式(相關、趨勢、聚類、軌跡和異常)。

五、資料探勘四種主要任務:

1、**建模:

**建模就是為某種任務建立模型。有兩類**建模的任務:分類,用於**離散的目標變數;回歸,用於**連續的目標變數。

2、關聯分析:

用來發現描述資料中強關聯特徵的模式。所發現的模式通常用蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取

有趣的模式。

3、聚類分析:

旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比,屬於同一簇的觀測值之間相互之間盡可能類似。聚類可用來對相關的客戶分組、找出顯著影響地球氣候的海洋區域以及壓縮資料等。

4、異常檢測:

異常檢測的任務是識別其特徵顯著不同於其他資料的觀測值。這樣的觀測值稱為異常點或離群點。異常檢測的目標是發現真正的異常點,而避免錯誤的將正常的物件標註為異常點。

資料探勘 認識資料

越來越多的人認識到,資料對這個世界的影響越來越大,掌握資料就掌握了發言權。如何從資料中找到想要的知識,是得到資料之後最需要關心的。資料探勘,也是知識發現的過程。1 理解資料 現實世界中,各行各業每時每刻都在產生數量龐大的資料集,讓人眼花繚亂,應該怎樣理解和處理資料呢?資料集由資料物件組成,乙個資料物...

大資料探勘 認識資料

資料集由資料物件組成,乙個資料物件代表乙個實體。屬性,是乙個字段,表示資料物件的乙個特徵。在文獻中,屬性 維 特徵和變數可以互換的使用。用來描述乙個給定物件的一組屬性稱做屬性向量 特徵向量 標稱意味著 與名稱相關 標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別 編碼或狀態,因此標稱屬性又被看...

《資料探勘》學習筆記 認識資料 2

一 資料的基本統計描述 資料的基本統計描述是為了從資料的統計結果中了解資料的大體特徵,方便對資料進行分類 梳理。其中統計的主要內容包括中心趨勢度量 資料散布度量。其中中心趨勢度量主要討論的內容有均值 中位數 眾數和中列數 資料散布度量主要的內容是資料的極差 四分位數 四分位極差 五數概括 和盒圖。二...