EDA(探索性資料分析)

2021-10-09 18:18:20 字數 548 閱讀 5128

1、什麼是eda分析?

(exploratory data analysis)

在特徵、資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。

2、怎麼去做eda分析?

主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。

首先,我們應該思考的是是否會出現下列問題:

1、資料是否缺失,有沒有離群點,特徵有沒有冗餘

2、是否有重複樣本,樣本是不是不平衡分布

3、是不是需要降維

4、連續特徵是否需要離散化

4、特徵是不是可以組合形成新的特徵

好的接下來我們可以去作圖了,

直方圖1、檢視資料的分布是否有偏移

2、檢視是否有離群點(異常資料)

箱線圖1、檢視是否有異常值

2、比較幾批資料的形狀

正態性檢驗

就是去檢驗資料是否滿足正態分佈,可以用畫直方圖,qq圖等方法進行分析

兩個變數之間的關係分析

兩個特徵之間是否線性相關、秩相關、關聯性怎麼樣

這個github上的例子可以幫助理解

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...

探索性資料EDA

import numpy as np import seaborn as sns import matplotlib.pyplot as plt from pandas import dataframe import pandas as pd from sklearn.datasets import...

資料探勘 探索性資料分析 EDA (補充)

去敏資料已經在之前有過介紹了,指為了保護資料,消除特徵的意義。而對這類資料就無法根據業務知識,進行特徵的建立。另外,我們得到的資料一般是原始資料通過變換得到的,變換的方式有很多種。本文主要針對通過乘除對資料進行縮放,然後通過加減對資料進行平移的這種資料還原。以下是從網上找到的乙個案例 首先介紹下,這...