資料處理
其他pandas 確實很好用, 但是網上的教程參差不齊, 找到可以用的比較花時間, 所以自己總結了一些會常常用到的。
import pandas as pd
# 根據imagename 通過查詢 image , 得到相應的cloth_label列的資料
label = train_lable.loc[train_lable.image == imagename]
['cloth_label'
]
當label為 y時, 變為1, label為 n時, 變為0
# train_set 為dataframe label 為要轉換的列標題
label =
'sentiment'
labels =
getattr
(train_set, label)
.map
()
output = pd.dataframe(data=
)
import pandas as pd
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=
0.3,random_state=0)
print
(len
(x_train)
)print
(len
(x_test)
)
import time
time_start = time.time(
)time_end=time.time(
)print
('reading time : '
,time_end-time_start,
's')
pandas 資料處理
pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...
Pandas資料處理
資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...