df 為dataframe格式資料,舉例如下:
序號label
name
score
interest01
a6011,12,1310
b8022
0c991231
d9044
0e852,11
篩選dataframe格式中滿足某條件的樣本
temp = df[df['label']==1]
輸出:
序號label
name
score
interest01
a6011,12,1331
d904
temp = df[(df['label']==1) & (df['score']>80)]
輸出:
序號label
name
score
interest31
d904
temp = df[(df['label']==1) | (df['score']>80)]
輸出:
序號label
name
score
interest01
a6011,12,1320
c99123
1d904
40e85
2,11
將一行拆分成多行
df = df.drop('interest', axis=1).join(df['interest'].str.split(',', expand=true).stack().reset_index(level=1, drop=true).rename('interest'))
輸出:
序號label
name
score
interest01
a60110
1a601201
a60131
0b802
20c99
1231d
90440
e8524
0e8511
重新命名列
df.rename(columns=,inplace=true)
根據某一列排序# 降序排列,預設公升序排列
df.sort_values('score',ascending=false)
輸出:
序號label
name
score
interest20
c99123
1d904
40e85
2,1110
b8020
1a6011,12,13
統計某一列元素出現次數
df['label'].value_counts()
輸出:
0 3
1 2
name: label, dtype: int64
注意:value_counts是series方法,dataframe沒有此方法,必須對一列才能進行該操作
Python中的Pandas模組
目錄 pandas series 序列的建立 序列的讀取 dataframe dataframe的建立 dataframe資料的讀取 panel panel的建立 pandas python data analysis library 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立...
python下pandas庫的學習
python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容 1 資料結構簡介 dataframe和series 2 資料索引index 3 利用pandas查詢資料 4 利用pandas的dataframes進行統計分析 5 利用pandas實現sql操作 6 利用p...
python的pandas庫讀取csv
首先建立test.csv原始資料,內容如下 時間,地點 一月,北京 二月,上海 三月,廣東 四月,深圳 五月,河南 六月,鄭州 七月,新密 八月,大連 九月,盤錦 十月,瀋陽 十一月,武漢 十二月,南京 匯出pandas import pandas as pd csv pd.read csv tes...