讀書筆記 003 資料預處理 資料歸約

2021-07-08 18:57:57 字數 637 閱讀 1120

概述

資料歸約(data reduction)技術可以用來得到資料集的歸約表示,它小得多,但是保持原始資料的完整性。也就是說,在歸約後的資料集上挖掘更有效果,仍然產生相同( 或幾乎形同)的分析結果。注意:用於資料歸約的時間不應當超過或「抵消」在歸約後的資料探勘上挖掘節省的時間。

資料探勘策略包括維歸約、數量歸約和資料壓縮。

1)維歸約(dimensionlity):減少所考慮的隨機變數或屬性的個數。維歸約方法包括小波變換和主成分分析,他們把原始資料變換或投影到較小的空間。屬性子集選擇是一種維歸約方法,其中不相關、弱相關或冗餘的屬性或維被檢測和刪除。

2)數量歸約(numerosity reduction):用替代的、較小的資料表示形式替換原始資料。

3)資料壓縮(data compression):使用變換,以便得到原始資料的歸約或「壓縮」表示。如果原始資料可以從壓縮後的資料重構,而不損失資訊,則該資料歸約稱為無損的。反之,稱之為有損的。維歸約和數量歸約也可以視為某種形式的資料壓縮。

讀書筆記 001 資料預處理 資料清理

1 概述實際的資料庫極易受雜訊 缺失值和不一致資料的侵擾,因為資料庫太大,並且多半來自多個異種資料來源。低質量的資料將會導致低質量的挖掘結果。有大量的資料預處理技術 資料清理 可以用來清楚資料中的雜訊,糾正不一致。資料整合 將資料由多個資料來源合併成乙個一致的資料儲存,如資料倉儲。資料歸約 可以通過...

讀書筆記 預處理 巨集定義

1 編譯工具鏈 預處理用預處理器,編譯用編譯器,彙編用彙編器,鏈結用鏈結器,這幾個工具再加上其他一些額外的會用到的可用工具,合起來叫編譯工具鏈。gcc就是乙個編譯工具鏈。2 預處理的意義 1 編譯器本身的主要目的是編譯源 將c的源 轉化成.s的彙編 編譯器聚焦核心功能後,就剝離出了一些非核心的功能到...

讀書筆記 資料探勘概念與技術 資料預處理

資料預處理的目的 提高資料質量,資料質量的三要素 準確性 完整性 一致性。資料預處理的任務 資料清理 填充缺失的值 光滑雜訊 識別離群點 糾正資料中的不一致 忽略元組 人工填寫缺失值 使用乙個全域性常量 使用屬性的中心度量 使用與給定元組屬同一類的所有樣本的屬性均值或中位數 使用最可能的值 最流行 ...