在資料中,直接新增列
使用df.insert方法在資料中新增一列
掌握drop(labels,axis,inplace=true)的用法
labels表示刪除的是資料,axis表示座標軸,inplace=true表示是否對源資料生效
axis=0按行操作,axis=1按列操作
使用del函式直接刪除其中一列
del basic['資料']
basic.drop(labels=['敬老愛幼情況','家庭和睦情況'],axis=1,inplace=true)
basic.drop(labels=range(6,11),axis=0,inplace=true)
basic.insert(0,'出生年月',mid)
實操:#新增某列
#列『buy_mount』的資料大於3為高,否則為低,結果放在新增加的列列『購買量』
df['購買量']=np.where(df['buy_mount']>3,'高','低')
df.head(5)
#把列acution_id複製到0列(列名為auction_id_new),並刪除原列
auction=df['auction_id']
del df['auction_id']
df.insert(0,'auction_id_new',auction)#para1:插入位置;para2:標籤名;para3:插入資料。
df#刪除某列
#刪除購買量,只是視覺化改變,原始檔沒有變
df.drop(labels=['auction_id_new','購買量'],axis=1)
#原始檔改變了
df.drop(labels=['auction_id_new','購買量'],axis=1,inplace=true)#的區別
df#按行標籤刪除
df.drop(labels=[3,4],axis=0,inplace=true)
#按行標籤刪除(迭代器形式),6-10行,左開右閉
d.drip(labels=range(5,11),axis=0,inplace=true)
資料探勘 資料預處理之資料清洗
資料清洗 資料清洗作為資料預處理中的乙個步驟,主要用於處理由於資料倉儲中資料不完整 資料雜訊以及資料不一致導致的問題。有人可能質疑,為什麼要對資料進行清洗?忽略那些出問題的資料不行嗎?當然,視而不見確是一種應對策略,但作為資料探勘中的一環,沒有高質量的資料又談何挖掘的可信性。為此,對於資料資料探勘來...
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
大資料預處理之資料清洗
現實世界的資料常常是不完全的 有雜訊的 不一致的。資料清洗過程包括遺漏資料處理,雜訊資料處理,以及不一致資料處理。本節介紹資料清洗的主要處理方法。假設在分析乙個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。1 忽略該條記錄 若一...