資料預處理初步解釋

2021-09-05 12:06:52 字數 3278 閱讀 9253

一、資料預處理

總結資料預處理的主要作用:提高資料計算的效果和效率,資料預處理需要考慮資料的質量要求和計算要求,

質量要求:資料預處理可以把對最終分析結果影響較大的不一致資料、虛假資料、錯誤資料等等資料排除在外,保證了資料分析結果具有較大的準確性,大資料分析分析出來的結果是作為決策方面的依據,故結果的正確性對決策方面具有巨大的影響,必須認真對待。

計算要求:資料預處理不僅僅要求資料的準確性,也要保證分析資料所得的結果具有時效性,因此,分析所用到的資料應具有一定的要求,使其符合分析演算法的結構、標註等有關方面,縮短分析所用時間,便於決策。

總結資料預處理的方法:

在質量要求上,可能會出現:

1不一致資料 →資料審計(具體方法)

可以依據以下四種方法或資料:

a)資料字典

b)使用者自定義的完整性約束條件,如欄位「年齡」的取值範圍為20~40

c)資料的自描述性資訊,如數字指紋(數字摘要)、校檢碼、xml、schema定義

d)屬性的定義域與值域

e)資料自包含的關聯資訊

a)變數規則:在單個(多個)變數上直接定義的驗證規則;

i.乙個有效值(或無效值)的取值範圍

ii.列舉所有的有效值(或無效值)

b)函式規則:相對於簡單變數規則,函式規則更為複雜需要對變數進行函式計算。

1.3視覺化審計:利用圖表的形式能夠很容易發現問題資料。

2錯誤\虛假資料、無效資料、資料缺失、重複資料→資料清洗

2.1缺失資料的處理:完全隨機缺失、隨機缺失、非隨機缺失

a)識別缺失資料:主要採用資料審計的方法發現缺失資料

b)缺失資料的分析:特徵分析、影響分析以及原因分析→需要利用資料所屬領域知識進一步分析其背後原因,為應對策略的選擇提供依據

c)缺失資料的處理:忽略、刪除處理或插值處理

2.2冗餘資料的處理:重複出現的資料以及與特定資料分析任務無關的資料識別、分析和過濾

a)重複過濾:重覆記錄是相對概念,根據資料分析需求來決定是否為重複資料

i.直接過濾:選擇其中的任何代表資料項保留,過濾其他冗餘資料

ii.間接過濾:對重複資料進行一定的校檢、調整、合併操作後,形成一條新的記錄

b)條件過濾:根據某種條件進行過濾,對乙個或多個屬性設定過濾條件

2.3雜訊資料(資料平滑:去雜訊)的處理:測量變數中的隨機錯誤或偏差→錯誤資料、虛假資料以及異常資料(對資料分析結果具有重要影響:離群資料或孤立資料)

a)分箱:將資料集放入若干個「箱子」,用均值(或邊界值)替換該箱內部每個資料成員

i.對原始資料集的分箱策略:等深分箱(成員個數相等)、等寬分箱(取值範圍相等)

ii.箱內成員資料的替換方法:均值平滑技術(均值替換)、中值平滑技術(中值替換)、邊界值(每個值被最近的邊界值替換)

b)聚類:聚類分析方法找出離群點/孤立點替換/刪除處理

c)回歸:回歸分析法進行平滑處理

3資料的變換:當原始資料的形態不符合目標演算法的要求

3.1資料變換策略:

a)平滑處理:雜訊處理方法

b)特徵構造(屬性構造):採用一直的特徵(屬性)構造出新的屬性用於描述客觀事實

c)聚集:對資料進行彙總或聚合處理,進而進行粗粒度計算

d)標準化(規範化):將特徵(屬性)值按比列縮放,使之落入乙個特定的區間→0.0~1.0、min-max標準化和z-score標準化

e)離散化:將數值型別的屬性值用區間標籤或概念標籤表示

3.2大小型別 :資料標準化處理是將資料按比列縮放,使之落入乙個特定區間

a)0-1標準化:x*=(x-min)/max(max-min) max和min是樣本資料最大最小值;x與x*標準化處理前的值和處理後的值(存在缺陷:當有新資料加入時,可能導致最大最小值的變化,需要重新定義min和max的取值)

b)z-scoer標準化:經過處理的資料符合標準正態分佈,即均值為0,標準差為1,:z=(x-µ)/σ µ是平均數 σ是標準差 x與z代表處理前的值和處理後的值

3.3型別變換:**資料型別轉換為目標資料集型別

a)一對一轉換:將變數資料型別直接轉換為目標資料集,存在一對一的對應關係

b)多對一轉換:變數資料型別對映為另一資料型別時進行多對一的對映

4資料整合:對來自不同資料來源的資料進行整合處理,整合後進行資料處理(可以在物理上實現或邏輯上實現)

4.1基本型別:

b)結構整合:目標資料集與**資料集結構不同時,對各**資料集的結構進行合併處理的結果,因此,還分為兩個階段:結構層次的整合和內容層次的整合,在結構整合過程中可以進行屬性選擇操作,不一定是簡單合併

4.2主要問題:

a)模式整合:如何使來自多個資料來源的現實世界的實體相互匹配,即是實體識別問題→資料庫與資料倉儲以元資料為依據進行實體識別

c)衝突檢測與消除:被整合資料的語義差異的存在是資料提成的主要挑戰之一

5其他預處理辦法

5.1資料脫敏:在不影響資料分析結果的準確性的前提下,對原始資料進行一定的變換操作,對其中的個人(或組織)敏感資料進行替換、過濾或刪除操作,降低資訊的敏感性,減少相關主體的資訊保安隱患和個人隱私風險資料脫敏處理不能停留在簡單地將敏感資訊遮蔽掉或匿名處理,必須滿足以下三個要求:

a)單向性:無法從脫敏資料推導出原始資料

b)無殘留:保證使用者無法通過其他途徑還原敏感資訊

c)易於實現:需要利用易於計算的簡單方法

d)需要三個基本活動:識別敏感資訊、脫敏處理【可以用替換(hash函式的方法進行單向對映)和過濾】和脫敏處理的評價

5.2資料歸約:不影響資料的完整性和資料分析結果的正確性的前提下,通過減少資料規模的方式達到提公升資料分析的效果與效率的目的,因此,資料歸約不應對後續資料分析結果產生影響

a)維歸約:避免維災難的發生(指隨著根據維度的增加,資料分析變得困難)減少所考慮的隨機變數或屬性的個數,採用線性代數的方式

b)值歸約:在不影響資料的完整性和資料分析結果的正確性的前提下,使用引數模型或非引數模型近似表示資料分布

c)資料壓縮:通過資料重構方法得到原始資料的壓縮表現方法

5.3資料標註:通過對目標資料補充必要的詞性、顏色、紋理、形狀、關鍵字或予以資訊等標籤類元資料,提高其檢索、洞察、分析和挖掘的效果與效率

a)自動化程度:分為手工標註、自動化標註和半自動化標註

b)標註的實現層次:

c)語法標註:主要採用語法層次上的資料計算技術,特點在於標籤內容的生成過程並不建立在語義層次的分析處理技術上,且標籤資訊的利用過程並不支援語義層次的分析推理

例如:文字資料的詞性、句法、局勢等語法標籤;影象資料的顏色、紋理和形狀等視覺標籤

d)主要採用語義層次上的資料計算技術,語義標註的過程及標註內容應均建立在語義wed和關聯資料技術上,例如對資料對出其主體、情感傾向、意見選擇等語義資訊

資料預處理 機器學習初步

這兩個是我們每次都需要匯入的庫。numpy包含數學計算函式。pandas用於匯入和管理資料集。資料集通常是.csv格式。csv檔案以文字形式儲存 資料。檔案的每一行是一條資料記錄。我們使用pandas的read csv方法讀取本地csv檔案為乙個資料幀。然後,從資料幀中製作自變數和因變數的矩陣和向量...

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...