python基礎筆記(六) 資料清洗及建模

2021-10-08 07:31:13 字數 1405 閱讀 6161

求出分組區間

求出目標欄位下頻率分布的其他統計量 → 頻數,頻率,累計頻率

繪製頻率直方圖、餅圖

定性資料

相對數比較(相除)

比例分析

空間比較分析(橫向對比分析)

動態對比分析(縱向對比分析)

位置平均數

離中趨勢度量

qq圖判斷

k-s檢測

散點圖矩陣初判多變數間關係

pearson相關係數

sperman秩相關係數

data.corr(method='spearman')

刪除缺失值

填充缺失值

替換缺失值

缺失值插補

臨近值插補

拉格朗日插值法

異常值分析

箱型圖分析

借用散點圖和箱形圖

異常值處理方法

0-1標準化:

cats.codes:分組後的區間,用代號來注釋資料對應區間,結果為ndarray

cats.categories:四個區間,結果為index

pd.value_counts(cats):按照區間計數

等頻法→ 以相同數量的記錄放進每個區間

型別

誤差

求解a,b

多元線性回歸

植物分類

pca.components_

pca.n_components:# 輸出成分的個數

x_pca = pca.transform(df) # 資料轉換,主成分分析,生成新的向量x_pca,為降維後的資料:fit_transform(x)

x_new = pca.inverse_transform(x_pca) # 將降維後的資料轉換成原始資料

繪製圖表

多維資料降維

步驟方法

繪製圖表顯示

構建k均值模型

案例

計算積分 y = x**2

排隊上廁所問題:理論聯絡實際。將實際問題轉換建模分析。通過大量資料以近似值逼近真實值

python資料清洗

對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...

資料清洗 python

資料清洗 python 1.1引言 對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找 容易累死 所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言 matlab和python,這裡我先介紹一下用python進行資料清洗。1.2...

Python 資料清洗

重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...