pandas常用操作方法
資料去重及重置索引
data1 = data.drop_duplicates(keep='first', inplace=false)
data2 = data1.reset_index(drop=true)
去掉time列裡面資料是0的所在行記錄
data1 = data[~data['time'].isin([0])]
用0或其他數值填充缺失值,以0為例
data = data.fillna(0)
按列篩選資料,在data表中篩選時間列 t1subdata_1 = data.loc[data['time'] > t1]
subdata_2 = subdata_1.loc[subdata_1['time'] < t2]
統計data表中第二列每個元素出現的個數
data1= data.iloc[:, 1]
count = dict(data1.value_counts())
count_1= pd.dataframe(list(count.items()), columns = ['value', 'number'])
value值在小數點後保留3位
percent = '%.3f' % (value)
dateframe刪除一行或一列
data1 = data.drop(0, axis=0, inplace=false) # 刪除第一行
data2 = data.drop(['a'], axis = 1) # 刪除a列
給dataframe表新增列名、調整列的順序
data.columns = ['a', 'b']
data1 = data[[ 'b', 'a']] # 調整列的順序
Python資料處理pandas常用方法
1 時間序列化 periodindex 2 變更列名 rename df.rename columns inplace true 3 對某列執行特定函式 agg df.groupby 貨主 英文列名.agg sum mean max min 4 排序 sort values ascending如果都...
pandas 的資料處理方法
import pandas as pd 2 讀入資料 pd.read csv filepath,param 3 檢視資料的前五行 pd.head pd.tail 檢視尾5行 4 檢視資料的一些情況 series.describe 對一列進行統計 5 刪除列 pd.drop columns,inpla...
資料處理 pandas資料處理優化方法小結
資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...