Pandas的資料清洗

#如果一列中含有多個型別,則該列的型別會是object,同樣字串型別的列也會被當成object型別.

# 提取需要的2列資料
data_statistic_key = data_statistic[["time", key]]
# 刪除空資料的行
data_statistic_key = data_statistic_key.dropna(axis=0)
# 把日期資料轉換成 datetime 的格式
data_statistic_key_time_ori = data_statistic_key["time"]
time_standard = [parser.parse(x) for x in data_statistic_key_time_ori]
data_statistic_key["time"] = time_standard

def cleaning_data_statistic(self, data):
#刪除前10行資料
#data1 = data.drop(data.head(10).index)
key_data = data1.keys()
len_key = len(key_data)
#將% 替換為 空格
data1[key_data[len_key - 1]] = data1[key_data[len_key - 1]].replace('%', '')
data1_line2 = data1[key_data[len_key - 1]]
if data1_line2.dtypes == object:
#刪除含有空格的資料
data1 = data1[~ data1_line2.str.contains(' ')]
#刪除含有字元的資料
data1 = data1[~ data1_line2.str.contains(r'[a-za-z\n]')]
data1_line2 = data1[key_data[len_key - 1]]
if data1_line2.dtypes == object:
#將資料型別轉換為float,方便後續numpy數**算
data1[key_data[len_key - 1]] = data1[key_data[len_key - 1]].astype('float')
return data1

pandas資料清洗

1 檢視重複的行 df.duplicated 2 檢視某列重複的行df.duplicated 列標籤 3 刪除重複的行df.drop duplicates 4 刪除某一列重複的行df.drop duplicates 列標籤 1 判斷資料缺失df.isnull 2 資料未缺失df.notnull 3 ...

pandas資料清洗

df.query 查詢符合某個條件語句的 and or 新增一列的值等於df其中兩列的加和分組求和 df.groupby 可以指定某列進行求和df.groupby 姓名 df插入一列在指定索引方法一 df.insert 0,colname,value insert one col at firs...

（pandas）評論資料清洗

df df.dropna subset comment 根據使用者id與comment兩列作為參照，如存在使用者id與comment同時相同，那麼只保留最開始出現的。df.drop duplicates subset user id comment keep first inplace true 重...

Pandas的資料清洗

pandas資料清洗

pandas資料清洗

（pandas）評論資料清洗

相關推薦