資料預處理

2021-07-15 17:49:17 字數 937 閱讀 4597

用cut函式分箱

有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況(路上的汽車數量)根據時間(分鐘資料)建模。具體的分鐘可能不重要,而時段如「上午」「下午」「傍晚」「夜間」「深夜」更有利於**。如此建模更直觀,也能避免過度擬合。

這裡我們定義乙個簡單的、可復用的函式,輕鬆為任意變數分箱。

def binning(col, cut_points, labels=none):    

#define min and max values:

minval = col.min()

maxval = col.max()

#利用最大值和最小值建立分箱點的列表

break_points = [minval] + cut_points + [maxval]

#如果沒有標籤,則使用預設標籤0 ... (n-1)

if not labels:

labels = range(len(cut_points)+1)

#使用pandas的cut功能分箱

colbin = pd.cut(col,bins=break_points,labels=labels,include_lowest=true)

return colbin

#為年齡分箱:

cut_points = [90,140,190]

labels = ["low","medium","high","very high"]

data["loanamount_bin"] = binning(data["loanamount"], cut_points, labels)

print pd.value_counts(data["loanamount_bin"], sort=false)

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

資料預處理 資料物件和屬性型別,資料的基本統計,資料視覺化,度量資料相似性和差異性 怎麼把連續屬性變成離散屬性,比如顏色,灰度是連續變化的,但可以量化到0 255離散值,所以做完資料去燥之後格式化處理之後要離散化。資料的計量 定類尺度 等號不等號 定序尺度,定距尺度 分類 定比尺度 所有數學計算 資...