資料探勘過程中 資料預處理

2022-04-23 06:51:12 字數 2282 閱讀 7880

原文:

在資料分析

之前,我們通常需要先將資料標準化(normalization),利用標準化後的資料進行資料分析

。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。資料無量綱化處理主要解決資料的可比性。資料標準化的方法有很多種,常用的有「最小—最大標準化」、「z-score標準化」和「按小數定標標準化」等。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。

資料的標準化過程也是歸一化的過程。

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

1 定義

歸一化就是要把你需要處理的資料經過處理後(通過某種演算法)限制在你需要的一定範圍內。首先歸一化是為了後面資料處理的方便,其次是保正程式執行時收斂加快。

2 為什麼要用歸一化呢?

首先先說乙個概念,叫做奇異樣本資料,所謂奇異樣本資料資料指的是相對於其他輸入樣本特別大或特別小的樣本向量。

下面舉例:

m=[0.11 0.15 0.32 0.45 30;

0.13 0.24 0.27 0.25 45];

其中的第五列資料相對於其他4列資料就可以成為奇異樣本資料(下面所說的網路均值bp)。奇異樣本資料存在所引起的網路訓練時間增加,並可能引起網路無法收斂,所以對於訓練樣本存在奇異樣本資料的資料集在訓練之前,最好先進形歸一化,若不存在奇異樣本資料,則不需要事先歸一化。

3 歸一化方法

(1)線性函式轉換,表示式如下:

y=(x-minvalue)/(maxvalue-minvalue)

說明:x、y分別為轉換前、後的值,maxvalue、minvalue分別為樣本的最大值和最小值。

在統計學中,歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布,歸一化在-1--+1之間是統計的座標分布。

(2)對數函式轉換,表示式如下:

y=log10(x)

說明:以10為底的對數函式轉換。

進行log分析時,會將原本絕對化的時間序列歸一化到某個基準時刻,形成相對時間序列,方便排查。

通過以10為底的log函式轉換的方法同樣可以實現歸一下,具體方法也可以如下:   

看了下網上很多介紹都是x『=log10(x),其實是有問題的,這個結果並非一定落到[0,1]區間上,應該還要除以    log10(max),max為樣本資料最大值,並且所有的資料都要大於等於1。

(3)反餘切函式轉換,表示式如下:

y=atan(x)*2/pi

歸一化是為了加快訓練網路的收斂性,可以不進行歸一化處理

(4)z-score 標準化(zero-mean normalization)

也叫標準差標準化,經過處理的資料符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:    

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

4 在matlab裡面,用於歸一化的方法共有三種:

(1)premnmx、postmnmx、tramnmx

(2)prestd、poststd、trastd

(3)是用matlab語言自己程式設計。

premnmx指的是歸一到[-1 1];prestd歸一到單位方差和零均值;關於自己程式設計一般是歸一到[0.1  0.9] 。

5 注意

需要說明的事並不是任何問題都必須事先把原始資料進行規範化,也就是資料規範化這一步並不是必須要做的,要具體問題具體看待,測試表明有時候規範化後的**準確率比沒有規範化的**準確率低很多.就最大最小值法而言,當你用這種方式將原始資料規範化後,事實上意味著你承認了乙個假設就是測試資料集的每一模式的所有特徵分量的最大值(最小值)不會大於(小於)訓練資料集的每一模式的所有特徵分量的最大值(最小值),但這條假設顯然過於強,實際情況並不一定會這樣.使用平均數方差法也會有同樣類似的問題.故資料規範化這一步並不是必須要做的,要具體問題具體看待. 

歸一化首先在維數非常多的時候,可以防止某一維或某幾維對資料影響過大,其次可以程式可以執行更快。方法很多,min-max,z-score,p範數等,具體怎麼使用,要根據資料集的特徵來選擇。

資料探勘過程中 資料預處理

原文 在 資料分析 之前,我們通常需要先將資料標準化 normalization 利用標準化後的資料進行 資料分析 資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合...

資料探勘 資料預處理

1 資料預處理 對於建立資料倉儲和資料探勘都是乙個重要的問題,因為現實世界中的資料多半是不完整的 有噪音的和不一致的。資料預處理包括資料清理 資料整合 資料變換和資料歸約。2 資料清理 可以用於填充遺漏的值,平滑資料,找出局外者並糾正資料的不一致性。3 資料整合 將來自不同資料來源的資料整合成一致的...

資料探勘 資料預處理

1.多維度衡量資料質量 正確性 完整性 一致性 時效性 可信度 可解釋性 2.資料清洗 補全缺失資料 專家補充完整 自動填充 unknown 均值 眾數 根據其他屬性採樣本均值等 平滑雜訊資料 隨機錯誤 技術限制等 裝箱 回歸 人機結合 聚類識別並移除異常資料 識別移除異常資料 利用屬性元資料 如身...