eda的定義:對已有的資料(特別是調查或觀察得來的原始資料)在盡量少的先驗假定下進行探索,通過作圖、製表、方程擬合、計算特徵量等手段探索資料的結構和規律的一種資料分析方法,它集中於檢查模型擬合和假設檢驗所需的假設,以及處理缺少的值,並根據需要進行變數轉換。
資料屬性分布分析(概率密度分析、資料分布)
資料屬性與target之間的相關性(correlation協方差,對映到余弦相似度cos距離)
缺失屬性相關性分析–進行合理的填充
構造屬性和構造屬性的相關性分析
在進行了單變數與多變數的分析之後,應該得到乙個展示成果性的報表。製作報表時應該思考以下的資訊:
資料缺失
異常值特徵有冗餘
分布情況
資料重複情況
資料是否平衡
是否需要抽樣
是否需要降維
能否構造更有價值的特徵
連續特徵是否需要離散化
是否需要對變數進行重新計算
7.1.檢視資料的型別統計
df.get_dtype_counts()
7.2.統計資料每列為空的資料個數的統計df1 = df.isnull().sum()
df1[df1> 0]
7.3.相關性
pearson相關性係數:反應兩個連續變數間呈線性相關的指標
kendall相關性係數:反映分類變數相關性的指標,適用於秩相關係數,定序變數或不滿足正態分佈假設的等間隔資料
spearman相關係數:反映定序變數或不滿足正態分佈假設的變數相關性的指標。
值域:【-1,1】
|r| >= 0.95 顯著關係 (顯著的關係需要概率 該特徵是否與目標有很強的關聯關係)(**和成交價,這樣的話可能考慮去掉,否則影響判斷)
|r| >= 0.8 強相關
|r| >= 0.5 中度相關
0.5 >=|r| >= 0.3 弱相關 (部分資料與該特徵可能存在較強的相關性)(草率的 可以去掉,待挖掘)(樓房屋頂和頂樓的成交價)
|r| < 0.3 極弱相關
7.3.1獲取相關係數矩陣dataframe.corr(method='pearson', min_periods=1)
min_periods:樣本最少的資料量
7.3.2獲取指定列的相關係數矩陣corr = df.corr()["saleprice"]#與房價的標籤 相關性
corr[corr>0.5].sort_values()
#corr[corr<0]
7.3.3相關性視覺化
使用seaborn的heatmap來作圖
#匯入包:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline #功能是可以內嵌繪圖,並且可以省略掉plt.show()這一步
#繪圖plt.figure(figsize=(30,30))
sns.heatmap(train2.corr(),linewidth=0.01,square=true,cmap='viridis',annot=true)
seaborn.heatmap相關引數
*seaborn.heatmap解析*
seaborn.heatmap(
data,#資料
vmin=none, #顯示資料值的最大範圍
vmax=none, #顯示資料值的最小範圍
cmap=none, #matplotlib顏色表名稱或物件,或顏色列表
center=none, #指定色彩的中心值
robust=false, #「true」和「vmin」使用強分位數計算顏色對映範圍,「vmax","false"使用極值
annot=none, #如果為true,則將資料值寫入每個單元格中
fmt='.2g', #fmt ='.0%',顯示百分比;fmt ='f' 顯示完整數字 = fmt ='g';fmt ='.3'顯示小數的位數 = fmt ='.3f' = fmt ='.3g'
annot_kws=none,
linewidths=0, #劃分每個單元格的線條寬度
linecolor='white', #劃分每個單元格的線的顏色
cbar=true, #是否繪製顏色條:colorbar
cbar_kws=none,
cbar_ax=none,
square=false, #為『true』時,整個網格為乙個正方形
xticklabels='auto',
yticklabels='auto',
mask=none,
ax=none,
**kwargs)
EDA 探索性資料分析
引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...
EDA(探索性資料分析)
1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...
資料探勘 探索性資料分析 EDA (補充)
去敏資料已經在之前有過介紹了,指為了保護資料,消除特徵的意義。而對這類資料就無法根據業務知識,進行特徵的建立。另外,我們得到的資料一般是原始資料通過變換得到的,變換的方式有很多種。本文主要針對通過乘除對資料進行縮放,然後通過加減對資料進行平移的這種資料還原。以下是從網上找到的乙個案例 首先介紹下,這...