資料探勘是再大型資料儲存庫中,自動地發現有用資訊的過程。(發現先前未知的有用模式,還可以**未來觀測結果)
並非所有的資訊發現都視為資料探勘,例使用資料庫查詢個別的記錄或通過網際網路查詢特定的web頁面,則是資訊檢索。儘管如此,人們也在利用資料探勘技術增強資訊檢索系統的能力。
資料探勘是資料庫中知識發現(kdd)不可缺少的一部分。而kdd是將未加工的資料轉換為有用資訊的整個過程。
kdd過程:
資料探勘要解決的問題:
1.可伸縮——如果資料探勘演算法要處理這些海量資料集,則演算法必須是可伸縮的。為了實現可伸縮可能還需要實現新的資料結構,才能以有效的方式訪問每個記錄。例如,當要處理的資料不能放進記憶體時,可能需要非記憶體演算法。使用抽樣技術或開發並行和分布演算法也可以提高可伸縮成都
2.高維性——常常遇到具有成百上千屬性的資料集,隨著維度(特徵數)的增加,計算複雜性迅速增加。
3.異種資料和複雜資料——隨著資料探勘作用越來越大,越來越需要能夠處理異種屬性的技術。此外,為挖掘複雜物件而開發的技術應當考慮資料中的聯絡。
4.資料的所有權與分布——有時,需要分析的資料並非存放在乙個站點,或歸屬乙個機構,而是地理上分布在屬於多個機構的資源中。這就需要開發分布式資料探勘技術。
5.非傳統的分析——傳統的統計方法基於一種假設-檢驗模式,即提出一種假設,設計實驗來收集資料,然後針對假設分析資料。現在的一些資料集常常涉及非傳統的資料型別的資料分布。
資料探勘任務分為下面兩大類:
1.**任務
2.描述任務:其目標是匯出概括資料中潛在聯絡的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性資料探勘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。
四種主要資料探勘任務:
(1)**建模:涉及以說明變數函式的方式為目標變數建立模型。有兩類**建模任務:分類,用於**離散的目標變數;回歸,用於**連續的目標變數。
(2)關聯分析:用來發現描述資料中強關聯特徵的模式,所發現的模式通常用蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別使用者一起訪問的web頁面、理解地球氣候系統不同元素之間的聯絡等。
(4)異常檢測:識別其特徵顯著不同於其他資料的觀測值。這樣的觀測值稱為異常點或離群點。異常檢測演算法的目標是發現真正的異常點。而避免錯誤地將正常的物件標註為異常點
資料探勘導論 筆記
1.1為什麼進行資料探勘?資訊時代的來臨不貼切,我們的時代其實是資料時代,還沒有真正步入資訊時代,現在資料 增長,需要將資料轉化為知識。1.2什麼是資料探勘?即kdd,資料中的資料發現 知識發現的迭代步驟為 1 資料清理2 資料整合3 資料選擇4 資料變換5 資料探勘6 模式評估7 知識表示 廣義的...
《資料探勘導論》學習筆記(一)
四種主要的資料探勘任務 1 建模任務 2 關聯分析 3 聚類分析 4 異常檢測 主要的資料質量問題 存在雜訊和離群點,資料遺漏 不一致或重複,資料有偏差,或者在別的方面,資料不代表描述所設想的現象或總體情況。資料集主要分為三類 記錄資料,基於圖形的資料 有序的資料 一般資料集的三個特性 記錄資料的不...
《資料探勘導論》學習筆記
寫在前面 粗體字為書中定義,紅色字型為筆者認為的重點詞。第一章 緒論 1.資料探勘 在大型資料儲存庫中,自動地發現有用資訊的過程。3.資料探勘要解決的問題 可伸縮,高維性,異種資料和複雜資料,資料的所有權和分布,非傳統的分析。4.資料探勘任務 任務,描述任務。四種主要資料探勘任務 1 建模,有兩類 ...