在建模之前處理的資料裡面,如果特徵都是單一值,我們應該刪除。這樣的值沒有意義,沒有區分能力。
本次我們採取刪除特徵下面值全部唯一的;
'''刪除維度佔比過大值過高的比例的函式'''
defprimaryvalue_ratio
(data, ratiolimit = 1):
#按照命中率進行篩選
#首先計算每個變數的命中率,這個命中率是指 維度中佔比最大的值的佔比
recordcount = data.shape[0]
x =
#迴圈每乙個列,並取出出現頻率最大的那個值;index[0]是取列名,iloc[0]是取列名對應的值
for col in data.columns:
primaryvalue = data[col].value_counts().index[0]
ratio = float(data[col].value_counts().iloc[0])/recordcount
feature_primaryvalue_ratio = pd.dataframe(x,index = data.columns)
feature_primaryvalue_ratio.columns = ['primaryvalue_ratio','primaryvalue']
needcol = feature_primaryvalue_ratio[feature_primaryvalue_ratio['primaryvalue_ratio']'index'])]
return select_data
呼叫函式:
df2 =primaryvalue_ratio(df1)
特徵工程 特徵歸一化
為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...
特徵工程 缺失值處理
目前常用的三類處理方法 1.用平均值 中值 分位數 眾數 隨機值等替代。效果一般,因為等於人為增加了雜訊。2.先根據歐式距離或pearson相似度,來確定和缺失資料樣本最近的k個樣本,將這k個樣本的相關feature加權平均來估計該樣本的缺失資料。3.將變數對映到高維空間 a.對於離散型變數 男 女...
特徵工程之特徵歸一化
百面機器學習 為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。對原始資料進行線性變換,使結果對映到 0,1 實現對原始資料的等比縮放。公式如下 x no rm x xmi nxma x xm in x f...