生成
l=[[
'green',1
],['blue',2
]]df=pd.dataframe(l)
df.columns=
['color'
,'class'
]
讀取
y = train_data[
"survived"
]#生成 pandas.core.series.series
y= train_data[
"survived"
].tolist(
)#生成list
pandas.core.frame.dataframe
test_data.head(
)#頭部5行
讀取指定列
y=train_data[
'label'
]#讀屬性label這一列
y=train_data[
['label'
,'name']]
#多個屬性列,產生
讀取行
y=train_data.iloc[1]
#讀第二行
y=(train_data.iloc[1]
)['label'
]#讀第二行列標籤=label處
#也可以整體讀取好多行
index=np.arange(0,
100)
new_df=df.iloc[index]
與檔案相關
pd.read_csv(
'e:\\sar\\exp3_2\\sar_datasets_info.csv'
,names=[''
,''])
#否則第乙個會被當成header
pd.read_csv(
'e:\\sar\\exp3_2\\sar_datasets_info.csv'
,names=
none
)#否則第乙個會被當成header
df.to_csv(
'e:\\sar\\exp3_2\\sar_datasets_info_train.csv'
,index=
false
)#index不寫入
長度
df.shape
#行數df.shape[0]
#列數df.shape[1]
排序
根據值排序
df=df.sort_values(by=
'a')
#如果有列名
df=df.sort_values(by=0)
#如果沒有列名
隨機分割訓練集和驗證集
import pandas as pd
df=pd.read_csv(
'e:\\sar\\exp3_2\\sar_datasets_info.csv'
)index=np.arange(
0,df.shape[0]
)np.random.shuffle(index)
#直接對index打亂,無需賦值
train=index[0:
int(
len(index)
*0.8)]
valid=index[
int(
len(index)
*0.8):
]tdf=df.iloc[train]
vdf=df.iloc[valid]
tdf.to_csv(
'e:\\sar\\exp3_2\\sar_datasets_info_train.csv'
,index=
false
)vdf.to_csv(
'e:\\sar\\exp3_2\\sar_datasets_info_valid.csv'
,index=
false
)
y=pd.get_dummies(df)
#對列中非數字部分進行二值化,若已經是數字就不會改變了
pandas常用指令
匯入資料 pd.read csv filename 從csv匯入 pd.read table filename 從分隔的文字檔案匯入 pd.read excel filename 從excel檔案匯入 pd.read sql query,connection object 從sql資料庫讀取 pd....
pandas 常用函式
本文翻譯自文章 pandas cheat sheet python for data science 同時新增了部分註解。對於資料科學家,無論是資料分析還是資料探勘來說,pandas是乙個非常重要的python包。它不僅提供了很多方法,使得資料處理非常簡單,同時在資料處理速度上也做了很多優化,使得和...
Pandas常用函式
count 非 na 值的數量 describe 針對 series 或 df 的列計算匯 計 min max 最小值和最大值 argmin argmax 最小值和最大值的索引位置 整數 idxmin idxmax 最小值和最大值的索引值 quantile 樣本分位數 0 到 1 sum求和 mea...