1.3填充缺失值
當資料量不夠或者其他部分資訊很重要的時候,就不能刪除資料了,這時需要對缺失值進行填充,通過fillna方法可以將缺失值替換為常數值。
例:
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理,即建立一些為缺失值的資料
使用fillna方法填充
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理,即建立一些為缺失值的資料
data.loc[1,
:]=np.nan
data[2]
=np.nan
display(data)
data.fillna(0)
#全部填充為0
當然在fillna中傳入字典結構資料,可以針對不同列填充不同的值,fillna返回的是新物件,不會對原資料進行修改,可通過inplace就地進行修改。
例:
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理,即建立一些為缺失值的資料
還可以通過平均值來作為填充數
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理,即建立一些為缺失值的資料
2.移除重複資料
在爬取的資料中往往會出現重複資料,對於重複資料保留乙份即可,其餘可以移除,在dataframe資料中,通過duplicated方法判斷各行是否有重複資料。
通過drop_duplicates方法,可以刪除多餘的重複項
很顯然這種情況下當每行的每個欄位都相同時才會判斷出為重複,這時可以通過指定部分作為判斷重複項的依據。
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(
)display(data)
data.drop_duplicates(
'年齡'
從結果可以看出,保留的資料為第一次出現的組合。傳入keep=『last』可以保留最後乙個。
chapter 資料清洗1 3
3.替換值 替換值類似於excel中的替換功能,是對查詢到的資料替換為相應的資料。在pandas中,通過replace可以完成替換功能。例 import pandas as pd 這裡建立不完整的資料,使用replace替換 import pandas as pd import numpy as n...
chapter 外部資料讀取和儲存1 2
excel 資料是工作過程中常見的一種資料。可以通過read excel和to excel函式對excel資料的讀取和儲存。建立乙個excel資料。開啟excel,輸入資料。通過read excel函式開啟。import pandas as pd from ipython.display impor...
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...