DataAnalysis 常用資料預處理方法彙總

2021-08-27 14:08:18 字數 819 閱讀 9626

將兩個或多個物件合併成單個物件,但是難免會丟失細節。

統計學使用抽樣是因為得到感興趣的整個資料整合本太高、太費時間,但是資料探勘使用抽樣是因為處理所有的資料的費用成本太高、太費時間。

抽樣方法包括:簡單隨機抽樣;分層抽樣等。

資料集可能包含大量特徵,選擇維歸約是維度降低許多資料探勘演算法的效果會更好,因為一方面是因為維歸約可以刪除不相關的特徵並降低雜訊,模型更容易理解,視覺化也更容易實現;另一方面是因為維災難。

維災難是指:隨著資料維度增加,資料在它所佔據的空間中越來越係數。對於分類可能意味著沒有足夠的資料物件來建立模型,將所有可能的物件可靠地指派到乙個類。對於聚類,點之間的密度和距離的定義失去了意義。結果是對於高維資料,許多分類演算法準確率下降,聚類質量下降。

特徵子集選擇:

(1)嵌入方法:演算法本身包含特徵選擇

(3)包裝方法:將目標資料探勘演算法作為黑盒,並不列舉所有可能的子集來找出最佳屬性子集。

(4)特徵加權:也屬於一種保留或刪除特徵的辦法。特徵越重要則賦予的權值越大,而不太重要的特徵賦予較小的權值。

由原來的屬性建立新的屬性集,從而更有效地捕獲資料集中的重要資訊。並且新屬性可能是由多個舊屬性建立的,從而數目可能比原屬性少。

(1)特徵提取:由原始資料建立新的特徵集。比如影象識別中按照**是否包括人臉建立新的特徵。

(2)對映資料到新的空間:比如對時間序列實施傅利葉變換可以轉化為頻率資訊明顯的表示;小波變換

1、連續變數離散化

2、對於標稱變數構造啞變數進行二元化

常用的變數變換就是規範化或者標準化。

data analysis 陣列拆分

陣列的拆分 hsplit拿刀切菜,刀刃豎著往下切。每一次下刀,刀是在橫向移動後切下去。split arr,切成幾分,axis 1 vsplit拿刀片魚片,刀刃橫著往右邊切。每一次下刀,刀是在縱向移動後切下去。split arr,片成幾層,axis 0 import numpy as np arr n...

data analysis 陣列排序

陣列排序 1.sort sort是inplace true的,lexsort是inplace false的,所以想要看lexsort的排序效果,需要用lexsort函式返回的下標索引去獲取元素觀察。2.lexsort。對於多個陣列,lexsort是把最後乙個陣列排序,再以這個排序方式去排前面的陣列。...

data analysis 矩陣運算

矩陣運算 1.矩陣與數相乘。與矩陣每個元素相乘 2.矩陣加減。對應位置元素相加減。shape屬性必須一致 3.矩陣相乘。m行n列 乘 n行l列 等於 m行l列。推薦使用matmul,dot 4.矩陣對應元素相乘。用multiply 5.m.h共軛轉置 m.i逆矩陣 m.t轉置矩陣 m.a impor...