Pandas的資料清洗

2021-10-03 10:59:35 字數 1747 閱讀 5047

#如果一列中含有多個型別,則該列的型別會是object,同樣字串型別的列也會被當成object型別.

# 提取需要的2列資料

data_statistic_key = data_statistic[["time", key]]

# 刪除空資料的行

data_statistic_key = data_statistic_key.dropna(axis=0)

# 把日期資料轉換成 datetime 的格式

data_statistic_key_time_ori = data_statistic_key["time"]

time_standard = [parser.parse(x) for x in data_statistic_key_time_ori]

data_statistic_key["time"] = time_standard

def cleaning_data_statistic(self, data):

#刪除前10行資料

#data1 = data.drop(data.head(10).index)

key_data = data1.keys()

len_key = len(key_data)

#將% 替換為 空格

data1[key_data[len_key - 1]] = data1[key_data[len_key - 1]].replace('%', '')

data1_line2 = data1[key_data[len_key - 1]]

if data1_line2.dtypes == object:

#刪除含有空格的資料

data1 = data1[~ data1_line2.str.contains(' ')]

#刪除含有字元的資料

data1 = data1[~ data1_line2.str.contains(r'[a-za-z\n]')]

data1_line2 = data1[key_data[len_key - 1]]

if data1_line2.dtypes == object:

#將資料型別轉換為float,方便後續numpy數**算

data1[key_data[len_key - 1]] = data1[key_data[len_key - 1]].astype('float')

return data1

pandas資料清洗

1 檢視重複的行 df.duplicated 2 檢視某列重複的行df.duplicated 列標籤 3 刪除重複的行df.drop duplicates 4 刪除某一列重複的行df.drop duplicates 列標籤 1 判斷資料缺失df.isnull 2 資料未缺失df.notnull 3 ...

pandas資料清洗

df.query 查詢符合某個條件語句的 and or 新增一列的值等於df其中兩列的加和 分組求和 df.groupby 可以指定某列進行求和df.groupby 姓名 df插入一列在指定索引 方法一 df.insert 0,colname,value insert one col at firs...

(pandas)評論資料清洗

df df.dropna subset comment 根據使用者id與comment兩列作為參照,如存在使用者id與comment同時相同,那麼只保留最開始出現的。df.drop duplicates subset user id comment keep first inplace true 重...