資料預處理 資料歸約03

2021-08-02 12:04:47 字數 519 閱讀 8754

概述

資料歸約(data reduction)技術可以用來得到資料集的歸約表示,它小得多,但是保持原始資料的完整性。也就是說,在歸約後的資料集上挖掘更有效果,仍然產生相同( 或幾乎形同)的分析結果。注意:用於資料歸約的時間不應當超過或「抵消」在歸約後的資料探勘上挖掘節省的時間。

資料探勘策略包括維歸約、數量歸約和資料壓縮。 

1) 維歸約(dimensionlity):減少所考慮的隨機變數或屬性的個數。維歸約方法包括小波變換和主成分分析,他們把原始資料變換或投影到較小的空間。屬性子集選擇是一種維歸約方法,其中不相關、弱相關或冗餘的屬性或維被檢測和刪除。 

2)數量歸約(numerosity reduction):用替代的、較小的資料表示形式替換原始資料。 

3)資料壓縮(data compression):使用變換,以便得到原始資料的歸約或「壓縮」表示。如果原始資料可以從壓縮後的資料重構,而不損失資訊,則該資料歸約稱為無損的。反之,稱之為有損的。維歸約和數量歸約也可以視為某種形式的資料壓縮。

03資料預處理

資料預處理 1.為什麼資料預處理 2.資料為什麼髒 3.為什麼資料預處理是重要的 4.資料質量 5.資料預處理的主要任務 6.資料預處理的形式 資料清理 1.如何處理缺失資料 2.如何處理噪音資料 資料整合 1.模式整合 衝突資料值 冗餘資料 資料變換 規範化資料的方法 最小 最大規範化 z sco...

讀書筆記 003 資料預處理 資料歸約

概述 資料歸約 data reduction 技術可以用來得到資料集的歸約表示,它小得多,但是保持原始資料的完整性。也就是說,在歸約後的資料集上挖掘更有效果,仍然產生相同 或幾乎形同 的分析結果。注意 用於資料歸約的時間不應當超過或 抵消 在歸約後的資料探勘上挖掘節省的時間。資料探勘策略包括維歸約 ...

03 資料的特徵預處理

定義 通過特定的統計方法 數學方法 將資料轉換成演算法要求的資料。數值型資料 標準縮放 類別性資料 one hot編碼 時間型別 時間的切分 定義 通過對原始資料的變化把資料對映到 0,1 之間 定義 將原始資料變換為均值為0,標準差為1的範圍內 from sklearn.preprocessing...