資料探勘 task2資料探索分析EDA

2021-10-04 06:43:58 字數 3356 閱讀 8333

2.**示例

載入各種資料科學以及視覺化庫:

載入資料:

資料總覽:

判斷資料缺失和異常

了解**值的分布

特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布

數字特徵分析

型別特徵分析

用pandas_profiling生成資料報告

import pandas as pd

import numpy as np

import seaborn as sns

from sklearn.model_selection import train_test_split

from matplotlib import pyplot as plt

#先讀取資料,分為訓練集和測試集

train = pd.read_csv(

'used_car_train_20200313.csv'

,sep=

' ')

test = pd.read_csv(

'used_car_testa_20200313.csv'

,sep=

' ')

先檢視訓練資料的前10行

describe種有每列的統計量,個數count、平均值mean、方差std、最小值min、中位數25% 50% 75% 、以及最大值 看這個資訊主要是瞬間掌握資料的大概的範圍以及每個值的異常值的判斷,比如有的時候會發現999 9999 -1 等值這些其實都是nan的另外一種表達方式,有的時候需要注意下

info 通過info來了解資料每列的type,有助於了解是否存在除了nan以外的特殊符號異常。

看起來 model bodytype fueltype gearbox 幾列存在空值

train.isnull().

any(

)

檢視輸出的結果情況

總共150000條,缺失的最多的列差不多缺了8000多條

缺失值直接填充-999

train.fillna(

-999

,inplace=

true

) test.fillna(

-999

,inplace=

true

)

然後檢視資料的情況

資料探勘 Task2 資料的探索性分析(EDA)

資料探勘 task2 資料的探索性分析 eda 其他都是我平時常用的庫,missingno第一次用,主要是用於直觀顯示資料集中缺失值的分布以及相關性的。import pandas as pd import matplotlib import matplotlib.pyplot as plt impo...

DataWhale 資料探勘 Task2

import warnings import matplotlib.pyplot as plt import pandas as pd import pandas profiling import scipy.stats as st import seaborn as sns warnings.fi...

0基礎資料探勘筆記task2

第一次接觸eda 1.首先用pandas載入資料。用head shape,columns,describe 等對資料的大概情況了解一下。矩陣的行列,均值,中位數,每個變數的大概分布等 2.用info value counts 去了解那些資料是有異常的,然後替換或刪除,或者 填充 nan值情況,值的分...