在市場研究、社會研究等資料過程中,都會涉及到資料加權的問題。但具體來說,什麼是資料加權呢?
簡單來說,就是就是在某些資料上增加或減少權重,讓部分樣本看起來重要或者不重要,或者讓所調研的樣本更符合市場現狀,尤其是人口現狀。這是在市場研究、社會研究、醫學研究中經常遇到的事情。
由此來看,資料加權適用於以下幾種情況:
情景1:在抽樣調查得到的樣本結構與總體人口統計結構狀況不相符,在資料處理時,可以通過加權來消除/還原這種結構差異,達到糾偏的目的。
情景2:除了人口統計結構,有時在調查樣本的某些變數或指標上樣本的代表性可能也會相對總體的實際狀況過高/過低,此時,需要加權進行調整。
情景3:在樣本組配額實驗設計中,進行不同子總體對比檢驗,也會通過加權來調整不同組間的樣本屬性不相匹配的情形(通常設有相同的配額,但執行有可能會出現差異);通常,加權對結果產生的差異很小,更多的是對結果從準確度上進行修飾。
情景4:所測試樣本出現了較多的缺失值,需要加權來糾正結果;對於面向特定客戶的專項研究,在調查前基本都協議有要完成的樣本量,故這種情形較少。
在如此多的情況下,我們應該如何進行加權呢?實際上,也非常簡單,公式如下:
設計加權 = 某個變數或指標的期望比例/該變數或指標的實際比例
例:針對年齡進行加權,使男:女=1:1。
從上圖我們可看出,各性別上均值沒有變化,但總體上卻略有不同。
python分層抽樣 抽樣方法 分層抽樣
接著上文說,簡單隨機抽樣法和分層抽樣法的對比有過乙個經典的例子。1936年美國 文學文摘 雜誌對結果進行了調查 他們根據當時的 號碼簿及該雜誌訂戶俱樂部會員名單,郵寄一千萬份問卷調查表,約240萬份,結論是蘭登取勝,而蓋洛普也組織了抽樣調查,進行民意測試。他的 與 文學文摘 截然相反,認為羅斯福必勝...
Python實現分層抽樣
首先說明一下我的需求。result 33.txt的檔案中有一些號碼標籤及分類的標記。具體如下 中國農業銀行 銀行 招商銀行信用卡 信用卡 門窗 無關我想做的是從每乙個類標記中隨機抽出1000個標籤。如果該類標籤下的樣本數不足1000,則全部抽取。然後將抽取的結果儲存到另乙個檔案中。具體 如下 盡可能...
分層抽樣原理及Oracle實現
在實際的資料探勘應用中,我們往往會從各方收集很多的資料,這些資料每分每秒都在增加,但我們如果用所有的這些資料並無益處。一是資料量過大,處理起來難度會大非常多,要求你的基礎計算平台效能很好,甚至需要用到平行計算,有時是沒有必要的 二是資料都是基於人及人的行為所產生的影響的,而人是會發生變化的,所以久遠...