joblib 對 Pandas 的並行處理

目標：

如果需要對乙個很大的資料集進行操作，而基於一列資料生成新的一列資料可能都需要耗費很長時間。

於是可以使用 joblib 進行並行處理。

實現方法：

1、無並行：

import pandas as pd
defdouble_fun
(data)
:return
pow(data,2)
data[
'double'
]= data[
'x']
.(double_fun)

2、並行：

import pandas as pd
from joblib import parallel, delayed
defdouble_func
(data)
:return
pow(data,2)
defkey_func
(subset)
:    subset[
"double"
]= subset[
"x"]
.(double_func)
data_grouped = data.groupby(data.index)
results = parallel(n_jobs=8)
(delayed(key_func)
(group)
for name, group in data_grouped)
data = pd.concat(results)

基本原理就是把整個 dataframe 根據 index，每行生成了乙個子資料集，而把每個子資料集作為子任務使用多程序執行，最終生成 results 是多程序執行生成的結果的 list，使用 concat 重新組合就是我們最終想要的結果了。

n_jobs 引數就是需要使用幾個程序池來執行程式。

pandas對列求和

使用pandas把列表中的字典元素轉成二維陣列，然後使用pandas函式實現對每一列求和。import pandas as pd datas sum dict pd.dataframe datas drop columns 學生 fillna 0 lambda x round x.sum 2 if ...

Pandas讀取並修改excel

最近總是和excel打交道，由於資料量較大，人工來修改某些資料可能會有點浪費時間，這時候就使用到了python資料處理的神器 pandas庫，話不多說，直接上pandas。安裝完成後使用python自帶的包管理工具pip可以很快的安裝pandas。pip install pandas如果使用的是an...

Pandas 遍歷行並求和

用 pandas 生成一列是另一列的逐行累加結果 import numpy import pandas from pandas import dataframecash pandas.read csv data.csv cash 銀行編號收入支出 0中國工商銀行 001 2020 10000 1...

joblib 對 Pandas 的並行處理

pandas對列求和

Pandas讀取並修改excel

Pandas 遍歷行並求和

相關推薦