資料預處理之缺失值處理

2021-08-28 01:14:25 字數 1208 閱讀 8619

刪除法

刪除小部分樣本,在樣本量大時(刪除部分所佔比例小於5%時)可以使用

插補法

—均值插補:分為定距型(插入均值)和非定距型(眾數或者中值)

—回歸插補:線性和非線性回歸

—極大似然估計mle(正態分佈為例)

極大似然原理的直觀想法我們用下面例子說明,在《權力的遊戲》中有個場景,老徒利死的時候,屍體放在穿上,需要弓箭手在岸邊發射火箭引燃。但是當時的艾德慕·徒利公爵**三箭都沒中,布林登·徒利實在看不下去了,通過旗幟判斷風向,一箭命中!

因此箭能否射中靶心,不僅跟弓箭手的瞄準能力有關,還跟外界的風向有關係。假設不考慮人的因素,但看風向…同樣的瞄準和力度,風太大不行、太小也不行….那我們給風的大小設定乙個值為θ。假設一名弓箭手射出了三隻箭,分別是8環、6環、7環(即x1=8,x2=6,x3=7),當天風的大小為88。那麼我們認為只有θ=88,發生上面事件的概率最大。

極大似然估計法該原理指的是在已知資料模型的情況下,得出該組資料生成概率最大的情況下所對應的引數值,即為估計結果。

如果需要插補的話應該在得出具體方程後進行代入資料得出函式值即可

**舉例:

t=[35,38,40,43,45,47,48,50,52,54,55,57,60,61,63,65,67,73,77,84]   %試驗資料

pdf=@(t,a,b,c) (a./b.^a).*(t-c).^(a-1).*exp(-((t-c)./b).^a); %該函式為正態分佈的概率密度函式,也可以在其他情況下為其他種類概率密度函式

start=[2 30 30]; %三個a b c的初值

[phat, pci]=mle(t,'pdf',pdf,'start',start) %phat估計值 pci估計區間,求出abc的估計值

當然首先也要判斷是否服從正態分佈:

[h,p]=lillietest(x)
返回值h只有0和1兩種情況,h=0符合正態分佈,h=1不符合正態分佈

返回值p為方差概率,也可以說事情的發生概率,p<0.05(顯著性水平通常取0.05,還有0.025和0.01三種情況)為不可能事件,拒絕;p>0.05,接受,引數x為要檢測的資料

資料預處理 缺失值處理

資料中的缺失值是個非常棘手的問題,有很多文獻都致力於解決這個問題。資料缺失的含義是 假設有 n n 個樣本,每個樣本20個特徵。但在一些樣本中出於某種原因某個特徵無效,則就構不成乙個完整的樣本。對於這樣的問題,有些情況下是不能直接將其拋棄的,對其進行挽救就是缺失值處理 1 使用可用特徵的均值來填補缺...

資料探勘實戰 資料預處理之缺失值處理

kaggle的titanic 比賽不少題解有標準的處理流程,這裡參考 kaggle titanic 生存 詳細流程 梳理 嘗試提取常用的缺失值處理方法 這裡還是借助google colab 來學習 讀取資料 import pandas as pd data pd.read csv data trai...

pandas資料預處理 缺失值

缺失值的分類 按照資料缺失機制可分為 不可忽略的缺失 non ignorable missing nim 或非隨機缺失 not missing at random,nmar,or,missing not at random,mnar 如果不完全變數中資料的缺失既依賴於完全變數又依賴於不完全變數本身,...