觀察資料的分布

在這裡記錄一些在學習，比賽中用到的 eda 方法，當作備忘錄吧…

有些缺失值不是 nan，還可能是 -1, inf, 『-』等特殊數字字元

對於 object

首先通過train_data.info()檢視有哪些 object

對特定的列train_data[col].value_counts()檢視值分布

若出現『-』等特殊字元就看作缺失值，可先設定為 nan 或『nan』好處理

train_data[col]
.replace(
'-', np.nan, inplace=
true
)

然後繪圖好觀察缺失值分布情況

train_missing = train_data.isnull().
sum(
)train_missing = train_missing[train_missing>0]
train_missing.sort_values(inplace=
true
)train_missing.plot.bar(
)

測試集也做一遍

可以通過繪圖檢視資料的分布情況

對於取值很少，且分布嚴重失衡的進行刪除

plt.figure(figsize=(15
,9))
cols =
6rows =
len(train_data.columns)
//cols+
1i =
1for col in train_data.columns:
plt.subplot(rows, cols, i)
sns.distplot(train_data[col]
)    i +=
1plt.tight_layout(
)

做回歸問題時，觀察 label 的分布情況，要滿足正態分佈

sns.distplot(train_data[
'price'
])

然後使用對數變換，注意有沒有 0，考慮加 1

train_data[
'price'
]= np.log(train_data[
'price'
])

python 如何觀察資料分布 describe

如何觀察資料分布 describe train.head 5 顯示前5行資料 train.tail 5 顯示後5行 train.columns 檢視列名 train.info 檢視各字段的資訊 train.shape 檢視資料集行列分布，幾行幾列 train.describe 檢視資料的大體情況從...

資料分布 Greenplum資料分布和分割槽策略

greenplum是乙個大規模並行處理資料庫，它由乙個master和多個segment組成，其資料按照設定的分布策略分布於各個segment上。資料表的單個行會被分配到乙個或多個segment上，但是有這麼多的segment，它到底會被分到哪個或哪些segment上呢？分布策略會告訴我們。分布策略 ...

分布式系統的資料分布方式

雜湊方式常見雜湊方式使用者id 機器組數分配到0 機器組數 1 上優點只要雜湊函式的雜湊特性較好，雜湊方式可以較為均勻的將資料分布到集群中去。缺點可擴充套件性不高，一旦集群規模需要擴充套件，則幾乎所有的資料需要被遷移並重新分布。一旦某資料特徵值的資料嚴重不均，容易出現資料傾斜 ...

觀察資料的分布

python 如何觀察資料分布 describe

資料分布 Greenplum資料分布和分割槽策略

分布式系統的資料分布方式

相關推薦