pandas統計csv中相同資料出現次數

2021-10-05 15:50:24 字數 563 閱讀 8780

在處理csv資料的過程中可能會遇到統計重複資料的情況,筆者以自己遇到的問題為例,給出乙個可以解決此問題的方法。

進行操作的csv檔案中含有1700多條資料,其中區域性如下圖所示:

目的是計算其中每條資料出現的次數,**如下:

import pandas as pd

csv = pd.read_csv(

'../data/all_ce.csv'

)counted = csv.groupby(

['causes'

,'effects'])

.size(

)counted.to_csv(

"../data/test.csv"

)#存入目的位址檔案

首先讀取csv檔案,再對讀取資料使用pandas中的資料內部分組函式groupby(),引數為列名或列名的組合,最後通過size()函式得到結果。如果讀者有更好的方法,希望可以與筆者進行交流。

Pandas 取出兩列中相同的元素

分別取出兩列,將兩列轉為兩個列表先,對兩個列表進行比較。看一下都有哪些規格 def cig data file path1,file path2 data pd.read excel file path1,sheet name 0,encoding gbk data.drop duplicates ...

Pandas 如何提取 拆分csv檔案中的指定列

在機器學習中,有時會需要將資料集的某個特徵或多個特徵提取出來,以便進行訓練或對比,下面記錄一種拆分csv檔案中列 一般為特徵 的方法。以下 實現功能包括 1.將 train.csv 檔案中的 id saleprice 特徵提取到 train price.csv 2.將 train.csv 檔案中除 ...

尋找txt中相同的行 Pandas讀取txt

pandas讀txt和excel 乙個小練習 pandas讀取txt檔案 read table read table和read csv類似,區別在於csv是sep以逗號為分隔,txt預設是tab作為分隔 先用help檢視read table的引數 用這幾個比較常用的作為例子 filepath or ...