1、向量是有名字的,可以使用names()檢視或者unname()去除
2、構建空的向量或者空的資料框接收迴圈結果的時候,必須把構建步驟放在循壞之外,否則每次迴圈都會生成新的空的資料框,最終得到的資料框會有很多零值。
setwd("e:/天睿teradata/data_analysis")
rawdata
#篩選出待分析資料(只挑選數值型變數),並用p_1與p_99替換異常值:
data_prepare
newdata
for(i in 1:ncol(dta))
return(dta)
}#匯出新錶:
newdata
write.csv(newdata,"newdata.csv")
#得到統計量資料框statistic_framework
statistic_framework
statistic_vector
return(statistic_vector)
} ncol_result
result
rownames(result)
for(i in 1:ncol(dta))
colnames(result)
"p_15","p_20","p_25","p_30","p_35","p_40","p_45","p_50","p_55","p_60","p_65",
"p_70","p_75","p_80","p_85","p_90","p_91","p_92","p_93","p_94","p_95","p_96","p_97",
"p_98","p_99","p_100")
return(result)
}#檢視測試資料結果:
statistic_result
write.csv(statistic_result,"statistic_result.csv")
資料的統計量 方差
上一節我們聊過 四分位數,其實還有十分位數,都是一樣的計算方法。他們都是獲取資料的分散性。通過箱線圖來體現。但有的時候,我們可能會對資料要求更高,希望 獲取其中的變異性,如工資變化差異到底多大,屌絲公司基本都是1.5 3k,土豪公司可能1w,5w,8w各種都有。那麼如果知道公司的工資是有很多檔位呢?...
順序統計量的選擇
在選擇順序統計量中,期望的時間複雜度是o n 主要是對於給定的陣列,從其中選擇出第k小的值。其與原理 利用了快速排序中的隨機分割區間的函式,將第k小的值分割到乙個區域裡面,相當於把該問題劃分的時候只劃分了乙個子問題,就沒有o lgn 根據快速排序的時間複雜度為o nlgn 可知,其時間複雜度為o n...
常用的統計量和抽樣分布
一 統計量 樣本均值 即在總體中的樣本資料的均值,反映樣本資料的集中趨勢。樣本方差 每個樣本值與全體樣本值平均數之差的平方值的平均數 方差是用來衡量隨機變數和其數學期望 均值 之間的偏離程度。樣本變異係數 變異係數又稱為離散係數,定義為標準差與平均值之比,樣本變異係數即樣本資料的標準差與其均值之比。...