pandas常用指令

2021-10-18 18:15:36 字數 2313 閱讀 6816

生成

l=[[

'green',1

],['blue',2

]]df=pd.dataframe(l)

df.columns=

['color'

,'class'

]

讀取

y = train_data[

"survived"

]#生成 pandas.core.series.series

y= train_data[

"survived"

].tolist(

)#生成list

pandas.core.frame.dataframe

test_data.head(

)#頭部5行

讀取指定列

y=train_data[

'label'

]#讀屬性label這一列

y=train_data[

['label'

,'name']]

#多個屬性列,產生

讀取行

y=train_data.iloc[1]

#讀第二行

y=(train_data.iloc[1]

)['label'

]#讀第二行列標籤=label處

#也可以整體讀取好多行

index=np.arange(0,

100)

new_df=df.iloc[index]

與檔案相關

pd.read_csv(

'e:\\sar\\exp3_2\\sar_datasets_info.csv'

,names=[''

,''])

#否則第乙個會被當成header

pd.read_csv(

'e:\\sar\\exp3_2\\sar_datasets_info.csv'

,names=

none

)#否則第乙個會被當成header

df.to_csv(

'e:\\sar\\exp3_2\\sar_datasets_info_train.csv'

,index=

false

)#index不寫入

長度

df.shape   

#行數df.shape[0]

#列數df.shape[1]

排序

根據值排序

df=df.sort_values(by=

'a')

#如果有列名

df=df.sort_values(by=0)

#如果沒有列名

隨機分割訓練集和驗證集

import pandas as pd

df=pd.read_csv(

'e:\\sar\\exp3_2\\sar_datasets_info.csv'

)index=np.arange(

0,df.shape[0]

)np.random.shuffle(index)

#直接對index打亂,無需賦值

train=index[0:

int(

len(index)

*0.8)]

valid=index[

int(

len(index)

*0.8):

]tdf=df.iloc[train]

vdf=df.iloc[valid]

tdf.to_csv(

'e:\\sar\\exp3_2\\sar_datasets_info_train.csv'

,index=

false

)vdf.to_csv(

'e:\\sar\\exp3_2\\sar_datasets_info_valid.csv'

,index=

false

)

y=pd.get_dummies(df)

#對列中非數字部分進行二值化,若已經是數字就不會改變了

pandas常用指令

匯入資料 pd.read csv filename 從csv匯入 pd.read table filename 從分隔的文字檔案匯入 pd.read excel filename 從excel檔案匯入 pd.read sql query,connection object 從sql資料庫讀取 pd....

pandas 常用函式

本文翻譯自文章 pandas cheat sheet python for data science 同時新增了部分註解。對於資料科學家,無論是資料分析還是資料探勘來說,pandas是乙個非常重要的python包。它不僅提供了很多方法,使得資料處理非常簡單,同時在資料處理速度上也做了很多優化,使得和...

Pandas常用函式

count 非 na 值的數量 describe 針對 series 或 df 的列計算匯 計 min max 最小值和最大值 argmin argmax 最小值和最大值的索引位置 整數 idxmin idxmax 最小值和最大值的索引值 quantile 樣本分位數 0 到 1 sum求和 mea...