格式轉換
資料的原始儲存形式未必適合python的資料處理
例如:時間,字串轉其他
缺失資料
每條資料都可能在某些屬性值上缺失
怎樣應對缺失資料
忽略有缺失資料的記錄
直接把值標記成未知
利用平均值、最常出現的值等去填充(有很多複雜的方法。)
異常資料
出現不符合常識的資料(異常挖掘)
處理方式模擬缺失資料
資料標準化
us、usa、united states------>美國(usa)
住址範圍(經緯度不同,但是同乙個城市。)
工具pandas:主要的資料格式是datafram seaborn:資料視覺化
實戰操作(資料bank)
載入模組,讀入資料
import pandas
bank=pandas.read_csv("bank-additional-train.csv")
#檢視資料的前三行
用describe看一下資料描述
看一下具體資料維度bank.shape
輸出為(37069,21),可知有37069條資料,21個專案。
bank.loc[1:4,'job']#部分輸出
1 admin.
2 admin.
3 admin.
4 admin.
name: job, dtype: object
對資料中的age進行清洗處理
bank["age"].dropna()#丟掉缺失值na
進行視覺化
import seaborn
%matplotlib inline#這一步只在notebook中是必要的
篩選了年齡小於70歲的資料,畫圖如下
對於時間的處理方法
pandas.to_datatime(bank[date])轉換資料型別
自定義時間型別pandas.to_datatime(bank[date],format=
」%y%m%d%h%m%s」)
以上
DC學院學習筆記(十一) 資料預處理 資料清理
終於到了資料儲存與預處理的最後一講了,感覺講得還不錯!下面來看看資料的預處理吧!官方文件 pandas速查手冊中文版 seaborn是基於matplotlib的繪相簿,可以製作更多更美觀的圖形,如example gallery中也可以看到很多關於影象的示例。這個繪相簿可以很好地輔助我們對資料進行第一...
清理資料 資料預處理之「資料清理」
由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增,並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中,我們將 資料處理需求,並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中,存在三個影...
中國好DC(資料中心)
隨著這些年全國各地興起建設資料中心的熱潮,我國資料中心數量已接近60萬座,規模更大 效能更高的資料中心在不斷出現,出現了不少中國好dc 資料中心 這些資料中心往往是在某些方面具有領先優勢,是資料中心中的佼佼者。本文就來說說這些中國好dc,當然這裡給出的評估結果,依據的是公開可查到的資料資料,也摻雜著...