在這裡記錄一些在學習,比賽中用到的 eda 方法,當作備忘錄吧…
有些缺失值不是 nan,還可能是 -1, inf, 『-』 等特殊數字字元對於 object
首先通過train_data.info()
檢視有哪些 object
對特定的列train_data[col].value_counts()
檢視值分布
若出現 『-』 等特殊字元就看作缺失值,可先設定為 nan 或 『nan』 好處理
然後繪圖好觀察缺失值分布情況train_data[col]
.replace(
'-', np.nan, inplace=
true
)
測試集也做一遍train_missing = train_data.isnull().
sum(
)train_missing = train_missing[train_missing>0]
train_missing.sort_values(inplace=
true
)train_missing.plot.bar(
)
可以通過繪圖檢視資料的分布情況
對於取值很少,且分布嚴重失衡的進行刪除
做回歸問題時,觀察 label 的分布情況,要滿足正態分佈plt.figure(figsize=(15
,9))
cols =
6rows =
len(train_data.columns)
//cols+
1i =
1for col in train_data.columns:
plt.subplot(rows, cols, i)
sns.distplot(train_data[col]
) i +=
1plt.tight_layout(
)
然後使用對數變換,注意有沒有 0,考慮加 1sns.distplot(train_data[
'price'
])
train_data[
'price'
]= np.log(train_data[
'price'
])
python 如何觀察資料分布 describe
如何觀察資料分布 describe train.head 5 顯示前5行資料 train.tail 5 顯示後5行 train.columns 檢視列名 train.info 檢視各字段的資訊 train.shape 檢視資料集行列分布,幾行幾列 train.describe 檢視資料的大體情況 從...
資料分布 Greenplum資料分布和分割槽策略
greenplum是乙個大規模並行處理資料庫,它由乙個master和多個segment組成,其資料按照設定的分布策略分布於各個segment上。資料表的單個行會被分配到乙個或多個segment上,但是有這麼多的segment,它到底會被分到哪個或哪些segment上呢?分布策略會告訴我們。分布策略 ...
分布式系統的資料分布方式
雜湊方式 常見雜湊方式 使用者id 機器 組 數 分配到0 機器 組 數 1 上 優點 只要雜湊函式的雜湊特性較好,雜湊方式可以較為均勻的將資料分布到集群中去。缺點 可擴充套件性不高,一旦集群規模需要擴充套件,則幾乎所有的資料需要被遷移並重新分布。一旦某資料特徵值的資料嚴重不均,容易出現 資料傾斜 ...