numpy,pandas,matplotlib 構成了乙個完善的資料分析生態圈,所以 3 個工具的相容性也非常好,甚至共享了大量的介面。當我們的資料是以 dataframe 格式呈現時,可以直接使用 pandas 提供的 dataframe.plot 方法呼叫 matplotlib 介面繪製常見的圖形。
例如,我們使用pandas資料處理基礎6中的插值後的資料 df_interpolate 繪製線形圖
df_interpolate.plot(
)
輸出結果:
)輸出結果:
除了上面提到的一些方法和技巧,實際上 pandas 常用的還有:
資料計算,例如:dataframe.add 等。
資料聚合,例如:dataframe.groupby 等。
統計分析,例如:dataframe.abs 等。
時間序列,例如:dataframe.shift 等。
爬蟲 資料處理 pandas資料處理
使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...
pandas 資料處理
pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...