問題1:
series 常用屬性為 values , index , name , dtype , 還有一些訪問資料的方法。
dataframe 常用屬性和方法:
pd.dataframe() 構造乙個 dataframe
df.rename() 修改行名和列名
屬性 index, columns, values, shape,
列的刪除 drop, del, pop
列的新增 assign
轉至 t
問題2:
經過實驗,value_counts 不會統計缺失值
問題3:
idxmax <—> idxmin
nlargest <—> nsmallest
問題4:
sum() 累計求和
mean() 求算術平均值
median() 求中位數
mad() 平均絕對偏差
min() 最小值
max() 最大值
abs() 取絕對值
std() 標準差
var() 方差
quantile(.05, .25) 用於構建分位數
cummax 累積最大值,可用於找出每一行或每一列的最大值
cumsum 累加值
cumprod 累乘
問題5:
df.mean(axis=1) 是對每一行求平均值
df.mean() 預設為 df.mean(axis=0) 是對每一列求平均值
axis=1 代表遍歷列,對每一行進行操作
axis=0 代表遍歷行,對每一列進行操作
練習1:
一共出現了 564 個任務
df[『name』].nunique()
tyrion lannister 說了最多的話
df[『name』].value_counts().idxmax()
tyrion lannister 說的單詞最多
names = df[『name』]
sentences = df[『sentence』]
def find_words(s):
cnt = s.count(』 ') + 1
return cnt
i = 0
d = dict()
max_words = 0
max_name = 『』
while i < len(names):
d[names[i]] = d.get(names[i], 0) + find_words(sentences[i])
if d[names[i]] > max_words:
max_name = names[i]
max_words = d[names[i]]
i = i + 1
print(max_name, max_words)
練習2:
(『jump shot』, 『jump shot』)
pd.series(list(zip(df[『action_type』], df[『combined_shot_type』]))).value_counts().index[0]
『sas』
pd.series(list(zip(*(pd.series(list(zip(df[『game_id』], df[『opponent』]))).unique()).tolist()))[1]).value_counts().index[0]
Pandas基礎入門(4)Panel
面板 panel 是3d容器的資料。面板資料一詞 於計量經濟學,部分源於名稱 pandas pan el da ta s。3軸 axis 這個名稱旨在給出描述涉及面板資料的操作的一些語義。它們是 items axis 0,每個專案對應於內部包含的資料幀 dataframe major axis ax...
Pandas 快速入門
pandas其實很簡單,共有三種資料結構。其中一維為series,二維為dataframe,三維為panel.先說series,numpy陣列,python列表等都可以生成series。它的結構分為兩部分,索引和值。獲取索引的方式為 index 方法,獲取值得方式為values 方法。而資料框又多乙...
pandas入門 十一
跟series中的值一樣,軸標籤也可以通過函式或對映進行轉換,從而得到乙個新的不同標籤的物件。軸還可以被就地修改,而無需新建乙個資料結構。跟series一樣,軸索引也有乙個map方法 將其賦值給index,這樣就可以對dataframe進行就地修改 想要建立資料集的轉換版 而不是修改原始資料 比較實...