資料預處理主要包括什麼?

2021-10-05 01:53:53 字數 1186 閱讀 7122

無量綱化

無量綱化主要解決資料的量綱不同的問題,使不同的資料轉換到同一規格,常見的方法有標準化區間縮放法。標準化的假設前提是特徵值服從正態分佈。區間放縮法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,列如[0,1]等。

(1) 標準化

理論上,標準化適用於服從正態分佈的資料,目前很多任務程都依賴大資料,所以在樣本足夠多的情況下,工程師往往直接使用標準化對資料進行無量綱化預處理,在深度學習中,將資料標準化能夠保證有更好的收斂。如果不進行資料標準化,有些特徵將會對損失函式影響很大,使得其他值比較小的特徵重要性降低

(2)歸一化/區間縮放法

歸一化適用於資料量較小的工程。顧名思義就是利用兩個最值進行縮放。公式為(x-min)/(max-min)

2.啞編碼與獨熱編碼

如果某一列資料是一些特徵,比如國家名稱,那就沒有辦法應用到回歸或者分類裡,所以需要對資料進行啞編碼或者獨熱編碼。

啞編碼與獨熱編碼的區別主要是啞編碼祛除了乙個狀態位。

例如:假設在中國、德國、法國、美國四種可能的取值,獨熱編碼就是用每個維度表達乙個國家,比如中國為1,0,0,0。而啞編碼只需要三個狀態位,如其他都為0則中國必為1.

3.缺失值補充

缺失值最常用的就是均值、就近補齊、k最近距離填充等方法。特別需要注意的是,有的時候缺失值也是一種特徵。

應當分為三種情況:

當缺失值過多時:應當捨棄這個特徵。

當缺失值適中時:應當將填充值當成一種特徵

當缺失值較少時:可以考慮進行填充

填充的常用策略:

用乙個異常值填充並將缺失值作為乙個特徵處理

用均值或者條件均值填充,如果資料是不平衡的,那麼應該使用條件均值填充,條件均值指的是與缺失值所屬標籤相同的所有資料的均值。

用相鄰資料填充

利用插值演算法

資料擬合,將缺失值當成一種**來處理

資料預處理包括哪幾步?

本文是python資料探勘實戰的讀書筆記。因為資料預處理這部分比較枯燥無趣,所以先手抄一遍主要內容。之前做過很多分析工作,但是對資料預處理這部分沒有系統化的梳理,通過閱讀這部分內容,感覺能彌補一下之前的方 短板。資料預處理的目的,有2個目的,一是為了提高資料的質量,二是為了讓資料更好地適應特定的挖掘...

php預處理 php預處理是什麼

可以把php預處理看作是想要執行的sql的一種編譯過的模板,它可以使用變數引數進行定製。php預處理的好處 1 查詢僅需解析 或預處理 一次,但可以用相同或不同的引數執行多次。當查詢準備好後,資料庫將分析 編譯和優化 執行該查詢的計畫。對於複雜的查詢,此過程要花費較長的時間,如果需要以不同引數多次重...

預處理幹了什麼

面試期間,面試官都會問這麼乙個問題,你知道預處理都幹了什麼嘛?那麼,預處理到底幹了什麼呢?我翻了很多的部落格,總結為以下幾點 1.標頭檔案展開 即將包含的標頭檔案插入到 include的位置 2.替換 define 3.條件編譯 4.刪除注釋 5.新增檔案標識 下面是乙個簡單地例子 include ...