pandas實用函式

2021-09-28 13:39:31 字數 2083 閱讀 6464

一  統計彙總函式:

import pandas as pd

s = pd.series()

s.min   

s.max

s.sum

s.mean

s.count  # 非缺失元素的個數

s.size   #所有元素的個數

s.median

s.var

s.std

s.quantile #計算任意分位數

s.cov #計算協方差

s.corr #計算相關係數

s.skew #計算偏度

s.kurt   #計算峰度

s.describe 

s.groupby

s.aggregate

s.argmin

s.argmax

s.any

s.all

s.value_counts

s.cumsum #計算累計和

s.cumprod #計算累計積

s.pct_change  #計算後乙個元素與前乙個元素的比率

二  資料清洗函式 

s.duplicated #判斷序列元素是否重複,返回與序列長度一樣的布林值

s.drop_duplicates #刪除重複值

s.hasnans  # 判斷序列是否存在缺失值,true or false

s.isnull  #判斷序列元素是否缺失,返回與序列長度一樣的布林值

s.notnull 

s.dropna

s.fillna

s.ffill #使用缺失值的前乙個元素填充

s.bfill #使用缺失值的後乙個元素填充

s.dtypes

s.astype

pd.to_datetime

s.factorize   #將字串序列 轉化為數值

s.sample

s.where  #基於條件判斷的值替換

s.replace  #按值替換 不可使用正則

s.str.replace  #按值替換 可使用正則

s.str.split.str

三 資料篩選

s.isin

s.between

s.loc

s.iloc

s.compress   #條件判斷

s.nlargest  #搜尋最大的n個元素

s.nsmallest  #搜尋最小的n個元素

s.str.findall  #子串查詢,可使用正則

四 繪圖與元素級函式

s.hist    #直方圖

s.plot   #基於kind引數繪製餅圖,折線圖,箱線圖

s.map   #元素對映

五 時間序列函式

s = pd.date_range('1/1/2012','2/1/2012',freq='d')

s.date   #獲取日期

s.time  #獲取時間

s.year

s.month

s.day

s.hour

s.minute

s.second

s.quarter  #獲取季度

s.weekday #返回數值型的星期幾

s.weekday_name   #返回字元型的星期幾

s.week  #返回一年中的第幾周

s.dayofyear #返回一年中的第幾天

s.daysinmonth  #返回月對應的最大天數

s.is_month_start 

s.is_month_end

s.is_quarter_start

s.is_quarter_end

s.is_year_start

s.is_year_end

s.is_leap_year #判斷是否為閏年

六 其他函式

s.diff  #一階差分

s.round   #元素的四捨五入

s.sort_values

s.sort_index

s.to_dict  轉化為字典

s.tolist   #轉化為列表

s.unique #元素去重

Pandas 的實用方法

1.想要刪除資料中有空數值的一行 df df.dropna print df 2.pandas讀取含有中文檔案時 df pd.read csv csv delimiter names encoding utf 8 print df 3.pandas 對index或者某一列進行全體排序 df df.s...

實用Pandas操作記錄

from lxml import etree 檔案路徑 f e web crawler https免費http ip 第1頁https.html 生成html頁面的字串 html table text etree.tostring etree.parse f,etree.htmlparser dec...

Pandas使用實用技巧

常見的需求是將某一列根據指定的分隔符拆分成多列。現有需求,根據指定的分隔符將其拆分為多行。例 df a b 0 a f 1b c h g 2d k 3 e l 現需要將其拆分為 df a b 0 a f 1b h 1c g 2d k 3 e l 實現過程如下 df pd.dataframe dfa ...