如何進行探索性資料分析 EDA ?

2021-10-06 14:31:15 字數 735 閱讀 8061

eda的目的是去挖掘資料的一些重要資訊。一般情況下會從粗到細的方式進行eda探索。一開始我們可以去探索一些全域性性的資訊。觀察一些不平衡的資料,計算一下各個類的方差和均值。看一下前幾行資料的資訊,包含什麼特徵等資訊。使用pandas中的df.info()去了解哪些特徵是連續的,離散的,它們的型別(int、float、string)。接下來,刪除一些不需要的列,這些列就是那些在分析和**的過程中沒有什麼用的。

比如:某些列的值很多都是相同的,或者這些列有很多缺失值。當然你也可以去用一些中位數等去填充這些缺失值。然後我們可以去做一些視覺化。對於一些類別特徵或者值比較少的可以使用條形圖。類標和樣本數的條形圖。找到一些最一般的特徵。對一些特徵和類別的關係進行視覺化去獲得一些基本的資訊。然後還可以視覺化兩個特徵或三個特徵之間的關係,探索特徵之間的聯絡。

你也可以使用pca去了解哪些特徵更加重要。組合特徵去探索他們的關係,比如當a=0,b=0的類別是什麼,a=1,b=0呢?比較特徵的不同值,比如性別特徵有男女兩個取值,我們可以看下男和女兩種取值的樣本類標會不會不一樣。

另外,除了條形圖、散點圖等基本的畫圖方式外,也可以使用pdf\cdf或者覆蓋圖等。觀察一些統計資料比如資料分布、p值等。這些分析後,最後就可以開始建模了。

一開始可以使用一些比較簡單的模型比如貝葉斯模型和邏輯斯諦回歸模型。如果你發現你的資料是高度非線性的,你可以使用多項式回歸、決策樹或者svm等。特徵選擇則可以基於這些特徵在eda過程中分析的重要性。如果你的資料量很大的話也可以使用神經網路。然後觀察roc曲線、查全率和查準率。

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

EDA(探索性資料分析)

1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...

探索性資料EDA

import numpy as np import seaborn as sns import matplotlib.pyplot as plt from pandas import dataframe import pandas as pd from sklearn.datasets import...