pandas像是python中的excel:它的基本資料結構是**(在pandas中叫「dataframe」),可以對資料進行各種操作和變換。它還能做很多其他的事。
import pandas as pd
data = pd.read_csv(
'files.csv'
)# seq顯示地宣告分隔符,encodig顯示地宣告編碼方式,n_rows宣告讀取前n行,skiprows宣告讀取時忽略的資料行
data = pd.read_csv(
'files.csv'
,sep=
';',encoding=
'latin-1'
,n_rows=
1000
,skiprows=[2
,5])
data.to_csv(
'files.csv'
,index=
none
)# 如果不設定index=none,程式會在檔案中新增乙個索引列,位於所有列的最前面,值為0,1,2,3,...
data.shape
# 輸出資料的行列資訊(rows,columns)
data.describe(
)# 輸出資料的基本統計量,如計數、均值、標準差、分位數
data.head(3)
# 輸出前3行
data.tail(3)
# 輸出最後3行
data.loc[8]
# 輸出序號為8的一行(第一行序號為0)
data.loc[8,
'column_1'
]# 輸出序號為8的行中,列名為'column_1'的資料
data.loc[
range(4
,6)]
# 輸出行索引為4-6的行,不包括6
data[
'column_numerical'
].plot(
)# 折線圖
data[
'column_numerical'
].hist(
)# 直方圖
data.loc[8,
'column_1']=
'english'
# 將行號8列名column_1的值更新為english
data.loc[data[
'column_1']==
'french'
,'column_1']=
'french'
# 將所有column_1列的值為french的單元更新為french
data[
'lang'
].value_counts(
)
data[
'column_1'].
map(
len)
# pandas庫中的鏈式方法使得一行**可以實現多個操作
data[
'column_1'].
map(
len)
.map
(lambda x:x/
100)
.plot(
)
# 相關矩陣
data.corr(
)# 散布矩陣(scatter matrices)
pd.plotting.scatter_matrix(data,figsize=(12
,8))
data.groupby(
'column_1')[
'column_2'].
(sum
).reset_index(
)
for i,row in data.iterrows():
dictionary[row[
'column_1']]
= row[
'column_2'
]
pandas學習筆記
import numpy as np import pandas as pd obj2 pd.series 4,7,5,3 index d b a c obj2 out 99 d 4 b 7 a 5 c 3 dtype int64 a b pd.series a bout 102 a 1 b 2 c...
pandas學習筆記
1 建立物件,瀏覽資料 建立物件,瀏覽資料 import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立series s pd.series 1,2,4,6,np.nan,9,10 index list abcde...
pandas學習筆記
1.series 類似numpy中的一維陣列,表示為索引 從0開始 和值。建立 import pandas as pd,numpy as np s1 pd.series np.arange 10 s2 pd.series 12 2,5 s3 pd.series 含有的屬性 s1.values s1....