在《利用python進行資料分析》一書中,涉及到到了rank方法,對其優先順序有一些自己的理解,在此做一下記錄。
首先,生成series,並使用預設rank方法(預設使用平均排名方式,也就是說當出現相同元素的時候,優先順序相加除以元素的個數):
obj = pd.series([7, -5, 7, 4, 2, 0, 4])
obj.rank()
06.5
11.0
26.5
34.5
43.0
52.0
64.5
dtype: float64
例如-5對應的優先順序為1,可按如下表示:
-5 -> 1.0 ;
0 -> 2.0 ;
7 -> 6.5 ; 7 -> 6.5 ;
當採用method=first時:
obj.rank(method='first')
0 6.0
1 1.0
2 7.0
3 4.0
4 3.0
5 2.0
6 5.0
dtype: float64
此時按值的大小進行排序,元素相同時也不對其優先順序進行平均. pandas的rank 函式解析
rank函式返回原序列元素對應位置的序列,它跟sort不同的是相同的值會分配他們排名的平均值,可以理解為每個元素根據他們位置獲得乙個 分數 如果兩個元素值一樣,他們的 分數 為佔位值求平均,如例 obj pd.series 7 5,7,4,2,0,4 obj.rank 0 6.51 1.02 6.5...
pandas中的dropna()方法解析
dataframe.dropna 方法的作用 是刪除含用空值或缺失值得行或列,語法為 dropna axis 0,how any thresh none,subset none,inplace false 1.axis 確定過濾的行或列,取值可以為 1 0或index 刪除包含缺失值的行,預設為0。...
Pandas中的資料聚合方法
資料聚合,一般都是指對分組中的資料執行某些操作,比如求平均值 求最大值等,並且操作後得到乙個結果集,這些實現聚合的操作稱為聚合方法。pandas中提供了用做聚合操作的agg 方法。一 使用內建統計方法聚合資料 前面已經介紹過pandas的統計方法,比如用於獲取最大值和最小值的max 和min 這些方...