python大資料分析 缺失值處理

2021-08-27 05:48:12 字數 752 閱讀 4998

# -*- coding: utf-8 -*-

import pandas as pd 

from scipy.interpolate import lagrange as lg #呼叫拉格朗日缺值補充函式

inputfile='d:/code/need/try.xls'

outputfile='d:/code/need/try1.xls'

data=pd.read_excel(inputfile)

data[u'b'][(data[u'b']>15) | (data[u'b']<1)]=none #去掉其中大於15小於1的異常值(視情況而定)

def lagra(data,j,k=5): #data為傳入的列,j為值

y=data[list(range(j-k,j))+list(range(j+1,j+1+k))]  #選取選中資料的前五個資料和後五個資料進行缺值補充

y=y[y.notnull()] #去掉選中資料中的空值

return lg(y.index,list(y))(j) #lagrange(x,y)(source) 返回值

for i in data.columns:

for j in range(len(data)):

if(data[i].isnull())[j]: #找到空值就執行函式

data[i][j]=lagra(data[i],j)

data.to_excel(outputfile)

資料分析中的缺失值處理

沒有高質量的資料,就沒有高質量的資料探勘結果,資料值缺失是資料分析中經常遇到的問題之一。當缺失比例很小時,可直接對缺失記錄進行捨棄或進行手工處理。但在實際資料中,往往缺失資料占有相當的比重。這時如果手工處理非常低效,如果捨棄缺失記錄,則會丟失大量資訊,使不完全觀測資料與完全觀測資料間產生系統差異 對...

資料分析中的缺失值處理

沒有高質量的資料,就沒有高質量的資料探勘結果,資料值缺失是資料分析中經常遇到的問題之一。當缺失比例很小時,可直接對缺失記錄進行捨棄或進行手工處理。但在實際資料中,往往缺失資料占有相當的比重。這時如果手工處理非常低效,如果捨棄缺失記錄,則會丟失大量資訊,使不完全觀測資料與完全觀測資料間產生系統差異 對...

資料分析中的缺失值處理

對缺失值的處理要具體問題具體分析 為什麼要具體問題具體分析呢?因為屬性缺失有時並不意味著資料缺失 缺失本身是包含資訊的,所以需要根據不同應用場景下缺失值可能包含的資訊進行合理填充 下面通過一些例子來說明如何具體問題具體分析,仁者見仁智者見智,僅供參考 年收入 商品推薦場景下填充平均值,借貸額度場景下...