資料處理中的細節(自用)

2021-09-26 07:27:03 字數 1510 閱讀 9371

# 同時滿足兩個條件

data = data.loc[(data.period!=-999)|(data.nuni!=-999)]

滿足某條件

bid_nuni = bid_nuni[bid_nuni[『nuni』]==1]

填充缺失值

data[『nuni』] = data[『nuni』].fillna(-999)

# 移除相同 樣本

totalexposurelog = totalexposurelog.drop_duplicates(subset=[『aid』,『uid』,『aid_location』,『request_time』], keep=『last』)#這裡的last是取相似行的最後一行

# 移除pctr高於密集區的樣本

totalexposurelog = totalexposurelog.loc[(totalexposurelog.pctr<=1000)]

# 移除quality_ecpm高於密集區的樣本

totalexposurelog = totalexposurelog.loc[(totalexposurelog.quality_ecpm>=0)&(totalexposurelog.quality_ecpm<=80000)]

# 移除totalecpm高於密集區的樣本

totalexposurelog = totalexposurelog.loc[(totalexposurelog.totalecpm<=120000)]

# 移除bid高於密集區的樣本

totalexposurelog = totalexposurelog.loc[(totalexposurelog.bid<=15000)]

list轉換為dataframe

crowd_feature = pd.dataframe(crowd_data)

時間分割

def get_preprocessing(df_):

df = df_.copy()

df['date'] = (df['month'].values - 7) * 31 + df['day']

del df['create_order_time']

return df

train = get_preprocessing(train)

test = get_preprocessing(test)

當缺失值比例佔到40%或以上,建議刪去這個特徵,反而可以提高效果

在做一場比賽之前,一般都要先找幾個相關的比賽熟悉一下套路

時間序列一定會用到滑窗

關於C 中資料處理的一些小細節

c 有另一種c語言所沒有的初始化變數的語法 int n 520 c語言 intn 520 c 允許這樣初始化賦值的時候注意細節,在宣告的時候盡可能給他初始化是乙個好習慣。成員函式 成員函式歸類所有,描述操縱資料的方法。如類ostream有乙個put 成員函式,只能通過類的特定物件,如cout物件,來...

FMDB中的資料處理

1 self.db executeupdate create table test a text,b text,c integer,d double,e double 我們建立乙個 text,可以很清楚的看到其欄位對應的資料型別 資料型別 text 字串型別。integer 整型。real 浮點型 ...

R語言 資料處理 R做資料處理中的小技巧

一 主要內容 建立新變數 修改資料 修改變數名 處理缺失值 資料排序 資料合併 資料篩選 抽樣二 r語言 rm list ls gc manager c 1,2,3,4,5 date c 10 24 08 10 28 08 10 1 08 10 12 08 5 1 09 country c us u...