三 資料探索

2021-08-16 10:43:07 字數 850 閱讀 8495

兩個角度:資料質量分析、資料特徵分析

一、資料質量分析(髒資料)

髒資料分類:

* 缺失值(刪除、插補、不處理)

* 異常值(離群點):

簡單統計量分析(判斷合理範圍)

3δ原則(偏離平均值3倍標準差)

箱形圖分析

* 不一致的值(矛盾性、不相容性)

* 重複資料以及帶有特殊符號的資料

二、資料特徵分析(繪製圖表、計算特徵向量)

* 分布分析(繪圖):定量:頻率分布直方圖;定性:餅圖、條形圖

* 對比分析

* 統計量分析:均值、中位數、眾數、極差、標準差、變異係數(標準差相對於均值的離中趨勢)、四分位數間距

* 週期性分析

* 貢獻度分析(帕累託圖)

* 相關性分析(散點圖,計算相關係數:pearson相關係數、spearman秩相關係數、 判定係數)

三、資料探索函式

相關係數:d.corr(method=『pearson』)

方差:var

標準差 :std

協方差矩陣:cov

describe:percentiles(0.2,0.4)指定分位數

拓展函式:

cumsum():累加

cumprod():累乘,依次給出積

cummax():依次給出前1,2,3…的最大值

畫圖函式:

plt.plot(s,y,style)二維圖

pie :label,size,explode=(0,0.1,0,0)第二部分突出,color

hist

boxplot d.plot(kind=box)

typescript探索(三) 函式

函式的作用自不用多說,下面讓我們來看看typescript的世界裡的函式的真實面貌吧!函式的基本樣子也就是如下 function fnanme arg1 type1,arg2 type2,type函式名 引數 函式體 返回值 函式名當然就是合法的識別符號,沒啥可講的,重要的是引數和返回值,決定了此函...

資料探勘 資料探索

資料探索 根據觀測 調查收集到初步的樣本資料集後,接下來要考慮的問題是 樣本資料集的數量和質量是否滿足模型構建的要求?有沒有出現從未設想過的資料狀態?其中有沒有什麼明顯的規律和趨勢?各因素之間有什麼樣的關聯性?資料探索就是通過檢驗資料集的資料質量 繪製圖表 計算某些特徵量等手段,對樣本資料集的結構和...

python 資料探索

import pandas as pd 資料載入 train data pd.read csv titanic data train.csv test data pd.read csv titanic data test.csv 資料探索 info 了解資料表的基本情況 行數 列數 每列的資料型別 ...