python做簡單的資料分組統計

2021-10-06 09:44:36 字數 923 閱讀 9021

按年份統計每乙個id出現的次數,當樣本很大的時候比較快一些。

# -*- coding=utf-8 -*-

import pandas as pd

import csv #載入csv包便於讀取csv檔案

csv_file=

open

('d:/mystata/harvard-1.0/patent/utility_num/utility1.0.csv'

,encoding=

"utf-8"

)#開啟csv檔案

csv_reader_lines = csv.reader(csv_file)

#逐行讀取csv檔案

date=

#建立列表準備接收csv各行資料

for one_line in csv_reader_lines:

#將讀取的csv分行資料按行存入列表『date』中

df = pd.dataframe(date,columns=

["id"

,"year"])

#將資料放入dataframe中,命名各列名稱為「id」和「year」

gp = df.groupby(by=

["year"

,"id"])

#按year分組

gp.size(

)#,統計每年每個id出現的次數

newdf=gp.size(

)newdf.reset_index(name=

'times'

)#result = pd.value_counts(gp)

newdf.to_csv(

'd:/mystata/harvard-1.0/patent/utility_num/every_utility_num.csv'

)#結果儲存在csv中

mongodb的mapreduce分組統計

根據in time yyyy mm dd hh mm ss 字段精確到天分組,統計數量 criteria criteria criteria.where parking id is inparking.getparking id and in time gte inparking.getstart ...

mysql給資料做排名 mysql給資料統計做排名

1 問題描述 目前有乙個表tb rank playerid,playername,score playerid是primary key 主鍵 現在的需求是,希望在表tb rank中再新增一列ranknum,這個ranknum記錄的是score的排名 根據分數做降序排列 2 初步解決方法 不考慮sco...

Hadoop之MR簡單例子(手機號分組和統計)

按手機號的前三位劃分,相同則為一組 public class areapartitionerextends partitioner override public int getpartition key key,value value,int numpartitions public class ...