1、分層抽樣的重要性,但是這個是針對分析物件的體量,我們無法全部採集的情況下,需要考慮的問題
2、細分分類,得到細緻的結論。但是要保證細分之後的資料足夠,確保最後統計結果的有效性。
3、對於樣本的分析,我們經常需要檢視一下幾個特徵:
--頻率度量:眾數
--位置度量:均值和中位數
--散度度量:極差和方差
--資料分布:頻率表、直方圖
--多圓匯**計:相關矩陣、協方差矩陣
4、多維度多層次彙總觀察資料的技術。olap概念。
補充:正態分佈是許多統計方法的理論基礎。 檢驗、方差分析、相關和回歸分析等多種統計方法均要求分析的指標服從正態分佈。許多統計方法雖然不要求分析指標服從正態分佈,但相應的統計量在大樣本時近似正態分佈,因而大樣本時這些統計推斷方法也是以正態分佈為理論基礎的。
資料分析的一些思考
是否可以從個體的金錢流動中發現社會執行機制,這是我感興趣的地方,此idea由集智百科的社群劃分演算法所引發。最近在試圖花大量時間讀懂ap算 文,大概半月到一月左右,之後看能否應用於二部圖聚類,避免聚類數目指定的問題。計畫先實現單機測試版,可行的話再分布式測試實際資料。金錢 物質等都可歸於資訊流動範疇...
關於從事資料分析行業的一些思考
剛畢業半年,半吊子水平的資料分析師,面試官基本上也不問你特別深層次的東西,問了一些有關職業的理解和發展規劃,現在把他記錄在部落格上面,後續繼續改正,如有不妥之處,還望批評指正。一 資料分析師的產生 資料分析師並不像產品和開發那樣在公司創業初期不可或缺,是公司發展到一定程度之後的產物 因為在產品初期,...
資料分析的一些方法(一)
本內容包含八個方法 邏輯樹 pest 多維度拆解 對比 假設檢驗 aarrr漏斗模型 rfm模型 杜邦分析方法。將零散的問題結構化,把複雜的問題簡單化。比如要計算北京有多少特斯拉。這個問題可以拆分為北京的汽車數量和北京特斯拉佔比,第乙個問題可以通過網上查詢到,第二個問題可以通過實際在十字路口上觀察,...