用cut函式分箱
有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況(路上的汽車數量)根據時間(分鐘資料)建模。具體的分鐘可能不重要,而時段如「上午」「下午」「傍晚」「夜間」「深夜」更有利於**。如此建模更直觀,也能避免過度擬合。
這裡我們定義乙個簡單的、可復用的函式,輕鬆為任意變數分箱。
def binning(col, cut_points, labels=none):
#define min and max values:
minval = col.min()
maxval = col.max()
#利用最大值和最小值建立分箱點的列表
break_points = [minval] + cut_points + [maxval]
#如果沒有標籤,則使用預設標籤0 ... (n-1)
if not labels:
labels = range(len(cut_points)+1)
#使用pandas的cut功能分箱
colbin = pd.cut(col,bins=break_points,labels=labels,include_lowest=true)
return colbin
#為年齡分箱:
cut_points = [90,140,190]
labels = ["low","medium","high","very high"]
data["loanamount_bin"] = binning(data["loanamount"], cut_points, labels)
print pd.value_counts(data["loanamount_bin"], sort=false)
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...
資料預處理
常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...
資料預處理
資料預處理 資料物件和屬性型別,資料的基本統計,資料視覺化,度量資料相似性和差異性 怎麼把連續屬性變成離散屬性,比如顏色,灰度是連續變化的,但可以量化到0 255離散值,所以做完資料去燥之後格式化處理之後要離散化。資料的計量 定類尺度 等號不等號 定序尺度,定距尺度 分類 定比尺度 所有數學計算 資...