按年份統計每乙個id出現的次數,當樣本很大的時候比較快一些。
# -*- coding=utf-8 -*-
import pandas as pd
import csv #載入csv包便於讀取csv檔案
csv_file=
open
('d:/mystata/harvard-1.0/patent/utility_num/utility1.0.csv'
,encoding=
"utf-8"
)#開啟csv檔案
csv_reader_lines = csv.reader(csv_file)
#逐行讀取csv檔案
date=
#建立列表準備接收csv各行資料
for one_line in csv_reader_lines:
#將讀取的csv分行資料按行存入列表『date』中
df = pd.dataframe(date,columns=
["id"
,"year"])
#將資料放入dataframe中,命名各列名稱為「id」和「year」
gp = df.groupby(by=
["year"
,"id"])
#按year分組
gp.size(
)#,統計每年每個id出現的次數
newdf=gp.size(
)newdf.reset_index(name=
'times'
)#result = pd.value_counts(gp)
newdf.to_csv(
'd:/mystata/harvard-1.0/patent/utility_num/every_utility_num.csv'
)#結果儲存在csv中
mongodb的mapreduce分組統計
根據in time yyyy mm dd hh mm ss 字段精確到天分組,統計數量 criteria criteria criteria.where parking id is inparking.getparking id and in time gte inparking.getstart ...
mysql給資料做排名 mysql給資料統計做排名
1 問題描述 目前有乙個表tb rank playerid,playername,score playerid是primary key 主鍵 現在的需求是,希望在表tb rank中再新增一列ranknum,這個ranknum記錄的是score的排名 根據分數做降序排列 2 初步解決方法 不考慮sco...
Hadoop之MR簡單例子(手機號分組和統計)
按手機號的前三位劃分,相同則為一組 public class areapartitionerextends partitioner override public int getpartition key key,value value,int numpartitions public class ...