第一次接觸eda:
1.首先用pandas載入資料。用head(),shape,columns,describe()等對資料的大概情況了解一下。(矩陣的行列,均值,中位數,每個變數的大概分布等)
2.用info(),value_counts()去了解那些資料是有異常的,然後替換或刪除,或者**填充(nan值情況,值的分布異常)
3.檢視各數字特徵的頻數與分布,skewness和kurtosis,相關性,且把每個特徵之間的視覺化成散點圖,進一步可以操作多變數的相互回歸的關係並視覺化。
4.檢視各型別特徵的頻數,unique分布,箱型圖,小提琴圖視覺化。
5.對**值進行檢視分布情況,頻數,無邊界詹森、正態、log正態擬合
6.總結以上操作得出的結論。
DataWhale 資料探勘 Task2
import warnings import matplotlib.pyplot as plt import pandas as pd import pandas profiling import scipy.stats as st import seaborn as sns warnings.fi...
資料探勘 task2資料探索分析EDA
2.示例 載入各種資料科學以及視覺化庫 載入資料 資料總覽 判斷資料缺失和異常 了解 值的分布 特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布 數字特徵分析 型別特徵分析 用pandas profiling生成資料報告 import pandas as pd import numpy ...
python基礎 打卡task2
your code here for i in range 1500 2701 if i 5 0 and i 7 0 print i 題目描述 話說這個世界上有各種各樣的兔子和烏龜,但是研究發現,所有的兔子和烏龜都有乙個共同的特點 喜歡賽跑。於是世界上各個角落都不斷在發生著烏龜和兔子的比賽,小華對此...