aggresult = data.groupby(by=['年齡'])['年齡'].agg()
#可以看到分組已經成功,但是結果不直觀,從結果反映不出每個年齡的人數
#進行數值分段處理:
bins = [min(data.年齡)-1,20,30,40,max(data.年齡)+1]
labels=['20歲及以下','21歲到30歲','31歲到40歲','41歲以上']
data['年齡分層'] = pandas.cut(
data.年齡,
bins,
labels = labels
)aggresult = data.groupby(by=['年齡分層'])['年齡'].agg()
#每個年齡段的人數已經出來了,但是結果依然無法直觀的展示每個年齡段區別
#轉化為百分比:
paggresult = round(aggresult/aggresult.sum(),3)*100
paggresult['人數'].map('%'.format)
資料分析之分布函式
一.概念解釋 pdf 概率密度函式 probability density function 在數學中,連續型隨機變數的概率密度函式 在不至於混淆時可以簡稱為密度函式 是乙個描述這個隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。pmf 概率質量函式 probability mass fun...
資料分析方法之分解分析介紹
在bi系統中,分解分析是結合結構分析與因素分析的一種視覺化的資料分析方法,它可通過使用者互動式的分析操作過程,構造出樹形的分解結構,並結合80 20原理圖來展現因子的資料分布情況。分解分析可用於分析kpi指標的構成因子及其貢獻度。資料分析之分解分析 在分解樹節點上可顯示多種資訊,如指標的數值 佔比 ...
資料分析之分析美國人口
資料 需求 匯入檔案,檢視原始資料 將人口資料和各州簡稱資料進行合併 將合併的資料中重複的abbreviation列進行刪除 檢視存在缺失資料的列 找到有哪些state region使得state的值為nan,進行去重操作 為找到的這些state region的state項補上正確的值,從而去除掉s...