演算法 資料預處理

2021-09-27 02:52:48 字數 1953 閱讀 2583

1.    缺失值:許多元組的屬性沒記錄值(可能缺失,可能故意留白後期填寫。)

(1)忽略元組:適用於元組有多個缺少值,每個屬性缺失值的百分比變化大時效能就會很差,採用忽略元組,就不能使用該元組的剩餘屬性值。

(2)人工填寫缺失值:費時費力,不適合大的資料集。

(3)使用乙個全域性常量填充預設值:將缺失值用同乙個常量

(unknown)替換。方法簡單,但不可靠。

(4)使用與給定元組同一類的所有樣本的屬性均值或中位數填充為缺失值。

(5)使用最可能的值填充:用貝葉斯,決策樹等歸納確定。(最流行的策略)

2.雜訊資料:被測量的變數的隨機誤差或方差。

(1)分箱:對資料分組,區域性光滑(用箱中中位數,類似直方圖)

(2)回歸:函式擬合,線性回歸(擬合兩個屬性最佳直線),多元線性回歸(多個屬性,曲面)

(3)離群點分析:聚類檢測,聚類:將類似的值組織成群或簇。

特點:直觀

3.資料處理過程

第一步:偏差檢測

利用資料(元資料)性質的知識(均值,中位數,眾數,值域,標準差,方差,數值的唯一性原則:屬性值必須不同於給屬性的其他值,空值等)判斷離群點,雜訊或要考察的不尋常的值。

第二步:資料變換

偏差檢測和資料變換(糾正偏差)迭代執行(多次)

※材料中介紹的是商業工具;

資料清洗工具,資料審計工具,資料遷移工具

整合多個資料庫、資料立方體或檔案,解決資料庫龐大和一種資料來源問題。

1.實體識別問題:等價實體如何匹配(例如怎樣確定不同資料庫中不同名稱的字段指的是相同的屬性)

2.冗餘和相關性分析

(1)標稱資料的χ2(卡方)相關檢驗

(2)數值資料相關係數

(3)資料數值的協方差

3.元組重複(*)

4.資料值衝突的檢測與處理:來自不同資料來源的同一實體的屬性值不同(單位,表示,編碼等)

簡化資料集表示,產生同樣的分析結果

主要包括維歸約和數值歸約。

1.資料歸約策略

(1)維歸約:減少屬性個數(小波變換和主成分分析,把元資料變換或投影到較小的空間)

小波變換(dwt),待整理   ;主成分分析,待整理

屬性子集選擇(特徵子集選擇):,待整:刪除不相關或冗餘的屬性(或維)減少資料量

(2)數值歸約:用替代的、較小的資料表示形式替換原資料。

(3)資料壓縮:使用變換,是資料壓縮後重構表示

對資料進行規範化、離散化和概念分層。

1、資料變換策略

(1)光滑:去掉資料中雜訊,(分箱,回歸,聚類)

(2)屬性構造(特徵構造):由給定的屬性構造新的屬性並新增到屬性集中。

(3)聚集:對資料進行彙總或聚集。

(4)規範化:把資料按比例縮放,投影到乙個小的區間。

最小-最大規範化:

(5)離散化:連續的原始值用區間或概念(s,m,l等)標籤替換。直方圖分析離散化,聚類、決策樹和相關分析離散化

(6)由標稱產生概念分層:研究標稱屬性的概念分層(國,省,市,區縣)

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...