import numpy as np
import pandas as pd
import csv
import random
# train_msg = pd.read_csv('../../txctr/train_msg.csv')
# train_msg = train_msg.sort_values(by='user_id', ascending=true) # 按照特定列排序,如果沒有重新賦值,原資料不會改變
# train_msg_train = train_msg[train_msg.user_id <= 100000] # 按照單單個條件選擇行
# train_msg_test = train_msg[train_msg.user_id > 100000]
# train_msg_train.to_csv('../../txctr/train_msg_train.csv',index=false,sep=',')
# train_msg_test.to_csv('../../txctr/train_msg_test.csv',index=false,sep=',')
#下面一段**
# simulation = pd.read_csv('../../txctr/test/try/simulation.csv')
# simulation = simulation[(simulation.user_id == 1) & (simulation.industry == 1) & (simulation.category == 2)] #裡面()不能丟
# print(simulation)
# times = simulation['click_times'].sum()
# print(times)
# 下面這幾行**極其高效地統計了各性別、年齡以及industry上面的分布,統計各類gender、age、industry組合出現的次數
# train_msg = pd.read_csv('../../txctr/train_msg.csv')
# # train_msg = train_msg.sort_values(by='user_id', ascending=true)
# count = train_msg.groupby(['gender', 'age', 'industry']).size().reset_index(name="time") # 此處如果不為統計列重新命名,
# # 則儲存的csv檔案只有最後一列,且沒有列標題
# print(count)
# count.to_csv("../../txctr/statistics/try/industry/gender_age_industry_count.csv", index=false, sep=',')
pandas 刪除滿足條件元素所在的行
在資料清洗時,需要按照一定條件刪除某些資料樣本,利用布林表示式 索引和drop方法可以實現。1.pandas.drop df df.drop df.index 乙個例子,刪除dataframe中滿足條件x所在的行 df clear df.drop df df x 0.01 index 也可以使用多個...
pandas找出某值的所有行 Pandas基礎1
1.series 1.1 pandas系列可以使用以下建構函式建立 資料幀 dataframe 是二維資料結構,即資料以行和列的 方式排列。功能 潛在的列是不同的型別 大小可變 標記軸 行和列 可以對行和列執行算術運算 pandas中的dataframe可以使用以下建構函式建立 pandas.dat...
滿足條件的01序列
題目連線 給定n個0和n個1,它們將按照某種順序排成長度為2n的序列,求它們能排列成的所有序列中,能夠滿足任意字首序列中0的個數都不少於1的個數的序列有多少個。輸出的答案對1e9 7取模。輸入格式 共一行,包含整數n。輸出格式 共一行,包含乙個整數,表示答案。資料範圍 1 n 1e5 輸入樣例 3輸...