資料分析 資料探索 EDA

2021-10-03 02:53:25 字數 2417 閱讀 2165

eda的定義:對已有的資料(特別是調查或觀察得來的原始資料)在盡量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索資料的結構和規律的一種資料分析方法,它集中於檢查模型擬合和假設檢驗所需的假設,以及處理缺少的值,並根據需要進行變數轉換。

資料屬性分布分析(概率密度分析、資料分布)

資料屬性與target之間的相關性(correlation協方差,對映到余弦相似度cos距離)

缺失屬性相關性分析–進行合理的填充

構造屬性和構造屬性的相關性分析

在進行了單變數與多變數的分析之後,應該得到乙個展示成果性的報表。製作報表時應該思考以下的資訊:

資料缺失

異常值特徵有冗餘

分布情況

資料重複情況

資料是否平衡

是否需要抽樣

是否需要降維

能否構造更有價值的特徵

連續特徵是否需要離散化

是否需要對變數進行重新計算

7.1.檢視資料的型別統計

df.get_dtype_counts()
7.2.統計資料每列為空的資料個數的統計
df1 = df.isnull().sum()

df1[df1> 0]

7.3.相關性

pearson相關性係數:反應兩個連續變數間呈線性相關的指標

kendall相關性係數:反映分類變數相關性的指標,適用於秩相關係數,定序變數或不滿足正態分佈假設的等間隔資料

spearman相關係數:反映定序變數或不滿足正態分佈假設的變數相關性的指標。

值域:【-1,1】

|r| >= 0.95 顯著關係 (顯著的關係需要概率 該特徵是否與目標有很強的關聯關係)(**和成交價,這樣的話可能考慮去掉,否則影響判斷)

|r| >= 0.8 強相關

|r| >= 0.5 中度相關

0.5 >=|r| >= 0.3 弱相關 (部分資料與該特徵可能存在較強的相關性)(草率的 可以去掉,待挖掘)(樓房屋頂和頂樓的成交價)

|r| < 0.3 極弱相關

7.3.1獲取相關係數矩陣
dataframe.corr(method='pearson', min_periods=1)

min_periods:樣本最少的資料量

7.3.2獲取指定列的相關係數矩陣
corr = df.corr()["saleprice"]#與房價的標籤 相關性

corr[corr>0.5].sort_values()

#corr[corr<0]

7.3.3相關性視覺化

使用seaborn的heatmap來作圖

#匯入包:

import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline #功能是可以內嵌繪圖,並且可以省略掉plt.show()這一步

#繪圖plt.figure(figsize=(30,30))

sns.heatmap(train2.corr(),linewidth=0.01,square=true,cmap='viridis',annot=true)

seaborn.heatmap相關引數

*seaborn.heatmap解析*  

seaborn.heatmap(

data,#資料

vmin=none, #顯示資料值的最大範圍

vmax=none, #顯示資料值的最小範圍

cmap=none, #matplotlib顏色表名稱或物件,或顏色列表

center=none, #指定色彩的中心值

robust=false, #「true」和「vmin」使用強分位數計算顏色對映範圍,「vmax","false"使用極值

annot=none, #如果為true,則將資料值寫入每個單元格中

fmt='.2g', #fmt ='.0%',顯示百分比;fmt ='f' 顯示完整數字 = fmt ='g';fmt ='.3'顯示小數的位數 = fmt ='.3f' = fmt ='.3g'

annot_kws=none,

linewidths=0, #劃分每個單元格的線條寬度

linecolor='white', #劃分每個單元格的線的顏色

cbar=true, #是否繪製顏色條:colorbar

cbar_kws=none,

cbar_ax=none,

square=false, #為『true』時,整個網格為乙個正方形

xticklabels='auto',

yticklabels='auto',

mask=none,

ax=none,

**kwargs)

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

資料探勘 探索性資料分析 EDA (補充)

去敏資料已經在之前有過介紹了,指為了保護資料,消除特徵的意義。而對這類資料就無法根據業務知識,進行特徵的建立。另外,我們得到的資料一般是原始資料通過變換得到的,變換的方式有很多種。本文主要針對通過乘除對資料進行縮放,然後通過加減對資料進行平移的這種資料還原。以下是從網上找到的乙個案例 首先介紹下,這...