資料探勘專案中最重要的事,並非演算法模型的選擇與調參,而是資料的預處理。在真實資料中(包括 kaggle 等比賽),通常存在大量的缺失值和噪音,這些對演算法的效果有極大影響。不僅如此,特徵的量級差異,也會影響**演算法的效果。如 knn 演算法,假設資料點有兩個特徵 x1,x2,其中 x1 的量級為 x2 的 10 倍,判斷距離時,由於距離變成了平方和,x1 的重要性就會是 x2 的 100 倍!再如:根據某房屋的資料集來**客戶購買房屋的可能,其特徵包括房屋面積,**,則可生成乙個新特徵:每平公尺** = ** / 房屋面積。
這個特徵多麼重要,大家也看的出來。然而,靠調參是做不到的,也沒法做到這種效果,只有通過資料預處理進行特徵生成才能夠實現。然而,現在卻沒有人系統性地講解這些技巧。
這次 chat,就是來系統性地告訴你各種資料預處理的方法技巧。最後,會以 python 來講解乙個資料預處理的例子。
閱讀全文:
機器學習 資料預處理
均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...
機器學習 資料預處理
1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...
機器學習python資料預處理
from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...