求出分組區間
求出目標欄位下頻率分布的其他統計量 → 頻數,頻率,累計頻率
繪製頻率直方圖、餅圖
定性資料
相對數比較(相除)
比例分析
空間比較分析(橫向對比分析)
動態對比分析(縱向對比分析)
位置平均數
離中趨勢度量
qq圖判斷
k-s檢測
散點圖矩陣初判多變數間關係
pearson相關係數
sperman秩相關係數
data.corr(method='spearman')
刪除缺失值
填充缺失值
替換缺失值
缺失值插補
臨近值插補
拉格朗日插值法
異常值分析
箱型圖分析
借用散點圖和箱形圖
異常值處理方法
0-1標準化:
cats.codes:分組後的區間,用代號來注釋資料對應區間,結果為ndarray
cats.categories:四個區間,結果為index
pd.value_counts(cats):按照區間計數
等頻法→ 以相同數量的記錄放進每個區間
型別
誤差
求解a,b
多元線性回歸
植物分類
pca.components_
pca.n_components:# 輸出成分的個數
x_pca = pca.transform(df) # 資料轉換,主成分分析,生成新的向量x_pca,為降維後的資料:fit_transform(x)
x_new = pca.inverse_transform(x_pca) # 將降維後的資料轉換成原始資料
繪製圖表
多維資料降維
步驟方法
繪製圖表顯示
構建k均值模型
案例
計算積分 y = x**2
排隊上廁所問題:理論聯絡實際。將實際問題轉換建模分析。通過大量資料以近似值逼近真實值
python資料清洗
對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...
資料清洗 python
資料清洗 python 1.1引言 對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找 容易累死 所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言 matlab和python,這裡我先介紹一下用python進行資料清洗。1.2...
Python 資料清洗
重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...