資料探勘筆記 1 概念 資料準備

2021-06-23 03:32:08 字數 1472 閱讀 5991

一.概念:

資料探勘:運用基於計算機的方法,從資料中獲得有用之時的整個過程。

兩個基本目標:**和描述。

資料探勘的基本任務:(1)分類  (2)回歸  (3)聚類 (4)總結概括 (5)關聯建模 (6)變化和偏差檢測

資料探勘的過程: 陳述問題,闡明假設->收集資料->預處理資料->模型評估(挖掘資料)->解釋模型,得出結論

資料倉儲的開發過程概括為3個階段:建模、構建和部署

完成資料探勘所耗費的精力:資料準備》商業目標》資料探勘》鞏固結果

二:資料準備

2.1 原始資料的表示

資料樣本是資料探勘的基本組成部分。每個樣本都用幾個特徵來描述,每個特徵都用不同型別的值。兩種常見的型別數值型和分型別。

數值型值包括實型變數和整型變數,如年齡、速度或長度。數值型特徵有兩個重要的屬性:其值有順序關係和距離關係。

分型別(長叫做符號型)變數沒有上述兩種關係,分型別變數的兩個值可以相等或不等。它們只建立一種等同關係,例如:眼睛顏色、性別、國籍。

具有n個值的分型別變數可以轉換成n個二進位制數值型變數,即乙個二進位制數值對應分型別變數的乙個值。

另一種基於變數值的變數分類方法是,根據它是連續性變數還是離散型變數來分類。連續型變數也稱為定量型或度量型變數。在大型資料集     

中,連續型變數用實型或整型值來表示。離散型變數也叫定性型變數。一種特殊的離散型變數是週期變數。

最後,另一種資料分類維度是基於資料與時間有關的行為特徵。大多數資料探勘方法更適合靜態資料,挖掘動態資料時,常常需要特殊的考慮  

和預處理。

產生大多數資料探勘問題的原因是,大量的樣本具有不同型別的特徵。此外,這些樣本往往是高維度的,這就意味著它們有極多的可測量特徵

。在高維度空間中密度和兩點間距離的傳統含義改變了,因此需要重新考慮、評估傳統概念。

2.2 原始資料的特徵

雜亂的資料**和含義;根據已有的資料甚至丟失的資料來建模。失真資料、方法上錯誤的步驟選擇、濫用資料探勘工具、模型過於理想化、

未考慮資料中各種不確定性和模糊性的模型-----所有的這些都可能導致資料探勘方向性錯誤。

資料探勘中乙個最關鍵的步驟是初始資料集的準備和轉換。

資料準備階段有兩個中心任務:

(1)把資料組織成一種標準形式,以便於資料探勘工具和其他基於計算機的工具處理(標準形式是乙個關係表)。

(2)準備資料集,使其能得到最佳的資料探勘效果。

2.3 原始資料轉換

標準化、資料平整、差值和比率

2.4 對丟失資料的處理

對帶有和不帶有丟失值的特徵生成多種資料探勘解決方案,然後對他們進行分析和解釋。

2.5 時間相關資料

2.6 異常點分析

異常點定義:在大型資料集中通常有一些不符合資料模型的一般規則,這些樣本和資料集中的其他資料有很大的不同或不一致,叫做異常點。

異常點的檢測方案的主要型別有:

圖形或視覺化技術、基於統計的技術、基於距離的技術、基於模型的技術  (這幾種方法的具體介紹略)

1 資料探勘概念筆記 引論

1.資料探勘概念筆記 引論 感覺不錯,讀之並記之。章節也是按照書中章節來,此處只是筆記,記錄一些重要的概念和核心的思想。為什麼要進行資料探勘?答 需要是發明之母 柏拉圖 資訊時代每天產生的資料海量,不得不需要從中進行挖掘。資料探勘有什麼用?答 可以將大型資料集轉化成知識。此外,資料探勘是資訊科技的進...

資料探勘1基礎概念

機器學習 假設用p來估計計算機程在某個任務t上的效能,若乙個程式通過利用經驗e在t中獲得了效能改善,我們說關於t和p,該程式對e進行了學習。適用機器學習的地方 1 表現或目標能夠增進 2 不知道把規則寫下 3 一切學習從資料開始 人工智慧的核心主要使用歸納 綜合而不是演繹。機器學習的三要素 資料 模...

資料探勘筆記(1)

1 資料探勘的一種定義 是一項通過探測大量資料以發現有意義的模式和規則的業務流程。資料探勘是一種業務流程,它以其它業務流程產生的大量資料為輸入,一般經過收集,清洗,整理,識別 分析和度量等加工,得到某種有意義的模式或規則作為輸出。而這種輸出反過來可以為其它業務流程提供度量,判斷,等作用。資料探勘的基...