資料競賽基本流程
美國國家標準與技術研究院(national institute of standards and technology,nist)提出探索性資料分析(eda)主要有如下功能:
載入各種資料科學以及視覺化庫:
載入資料:
資料預覽:
判斷資料缺失和異常
#缺失值檢測
# nan視覺化
missing = data.isnull().
sum(
)missing = missing[missing >0]
missing.sort_values(inplace=
true
)missing.plot.bar(
)
了解**值的分布
## 1) 總體分布概況(無界詹森分布等)
import scipy.stats as st
y = data[
'label'
]plt.figure(1)
; plt.title(
'johnson su'
)sns.distplot(y, kde=
false
, fit=st.johnsonsu)
plt.figure(2)
; plt.title(
'normal'
)sns.distplot(y, kde=
false
, fit=st.norm)
plt.figure(3)
; plt.title(
'log normal'
)sns.distplot(y, kde=
false
, fit=st.lognorm)
## 2) 檢視skewness and kurtosis
sns.distplot(data[
'label'])
;print
("skewness: %f"
% data[
'label'
].skew())
print
("kurtosis: %f"
% data[
'label'
].kurt(
))
特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布
數字特徵分析
型別特徵分析
用pandas_profiling生成資料報告
時間序列,需進行型別轉換
pd.to_datetime()
EDA 探索性資料分析
引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...
EDA(探索性資料分析)
1 什麼是eda分析?exploratory data analysis 在特徵 資料處理的過程中,對資料進行探索,找到他們之間的更多潛在關係。2 怎麼去做eda分析?主要是通過資料視覺化來顯示資料之間的關聯,從而對資料進行處理。首先,我們應該思考的是是否會出現下列問題 1 資料是否缺失,有沒有離群...
Task01 資料載入及探索性資料分析
pandas.read csv 報錯 oserror initializing from file failed,一般由兩種情況引起 一種是函式引數為路徑而非檔名稱,另一種是函式引數帶有中文。對於第一種情況很簡單,原因就是沒有把檔名稱放到路徑的後面,把檔名稱新增到路徑後面就可以了。第二種情況,即使路...