#函式應用和對映
import numpy as np
import pandas as pd
df=pd.dataframe(np.random.randn(4,3),columns=list('bde'),index=['utah','ohio','texas','oregon'])
print(df)
""" b d e
utah -0.667969 1.974801 0.738890
ohio -0.896774 -0.790914 0.474183
texas 0.043476 0.890176 -0.662676
oregon 0.701109 -2.238288 -0.154442
"""f=lambda x:x.max()-x.min()
#預設情況下會以列為單位,分別對列應用函式
print(t1)
print(t2)
"""b 1.597883
d 4.213089
e 1.401566
dtype: float64
utah 2.642770
ohio 1.370957
texas 1.552852
oregon 2.939397
dtype: float64
"""def f(x):
return pd.series([x.min(),x.max()],index=['min','max'])
#從執行的結果可以看出,按列呼叫的順序,呼叫函式執行的結果在右邊依次追加
print(t3)
""" b d e
min -0.896774 -2.238288 -0.662676
max 0.701109 1.974801 0.738890
"""#元素級的python函式,將函式應用到每乙個元素
#將dataframe中的各個浮點值保留兩位小數
f=lambda x: '%.2f'%x
print(t3)
""" b d e
utah -0.67 1.97 0.74
ohio -0.90 -0.79 0.47
texas 0.04 0.89 -0.66
oregon 0.70 -2.24 -0.15
"""t4=df['e'].map(f)
print(t4)
"""utah 0.74
ohio 0.47
texas -0.66
oregon -0.15
"""
pandas中DataFrame常用內容整理
1.dataframe概述 series的模型是二維陣列.2.dataframe建立 1 通過二維陣列建立 二維陣列建立 dataframe1 pa.dataframe 1,2,3 4,5,6 index jenny danny columns c e m print 通過二維陣列建立 print ...
python中DataFrame多重索引問題
在python資料處理中如果實現excel透視表中的功能,則多重索引問題就比較突出了。近來為實現python自動郵件,需要對資料進行透視表功能,遇到多重索引和多表頭問題,下面總結下用法。一 多重索引 常規的單索引這裡就不多贅述了,主要來看下多索引的問題。pd.pivot table產生的多重索引問題...
pyspark中dataframe缺失值填充
在工作中我們經常面對各種缺失值的處理,當使用pandas,缺失值可以使用fillna,指定method ffill或bfill就能實現 缺失值的前向或後向填充。但是在spark應用中,需要稍微做一些改變。比如說我們先建立乙個dataframe df spark.createdataframe a 1...