Pandas和常見資料處理小模組

2022-08-31 15:21:16 字數 1024 閱讀 2190

資料處理

其他pandas 確實很好用, 但是網上的教程參差不齊, 找到可以用的比較花時間, 所以自己總結了一些會常常用到的。

import pandas  as pd 

# 根據imagename 通過查詢 image , 得到相應的cloth_label列的資料

label = train_lable.loc[train_lable.image == imagename]

['cloth_label'

]

當label為 y時, 變為1, label為 n時, 變為0

# train_set 為dataframe   label 為要轉換的列標題

label =

'sentiment'

labels =

getattr

(train_set, label)

.map

()

output = pd.dataframe(data=

)

import pandas as pd

from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=

0.3,random_state=0)

print

(len

(x_train)

)print

(len

(x_test)

)

import time

time_start = time.time(

)time_end=time.time(

)print

('reading time : '

,time_end-time_start,

's')

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...

Pandas資料處理

資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...