接著上文說,簡單隨機抽樣法和分層抽樣法的對比有過乙個經典的例子。2023年美國****,《文學文摘》雜誌對結果進行了調查**。他們根據當時的**號碼簿及該雜誌訂戶俱樂部會員名單,郵寄一千萬份問卷調查表,**約240萬份,結論是蘭登取勝,而蓋洛普也組織了抽樣調查,進行民意測試。他的**與《文學文摘》截然相反,認為羅斯福必勝無疑。結果,羅斯福贏得了2770萬張民眾選票,從此蓋洛普名聲大噪,而蓋洛普採用的就是分層抽樣法。
喬治·蓋洛普
分層抽樣法是從乙個可以分成不同子總體(或稱為層)的總體中,按規定的比例從不同層中隨機抽取樣本的方法,可以避免對樣本**集中於某一群體,能夠更客觀地反映全體投票者的傾向。蓋洛普根據白人和黑人的比例,窮人和富人的人口比例,調整調查樣本的比例,將人口分為不同層次,按照層次比例分配樣本數,而後在每個層次內使用隨機抽樣的方式進行調查。
具體來說,確定各層樣本數的方法有三種:
第一是分層定比。即各層樣本數與該層總體數的比值相等。例如,樣本大小n=50,總體n=500,則n/n=0.1 即為樣本比例,每層均按這個比例確定該層樣本數。這種方法存在的問題在於,某些事情所佔比例雖低但影響巨大,例如信用卡信用評級,逾期使用者是少數,但確實研究重點,要是按照比例抽樣會造成樣本不足。
第二,非比例分配法。當某個層次包含的個案數在總體中所佔比例太小時,為使該層的特徵在樣本中得到足夠的反映,可人為地適當增加該層樣本數在總體樣本中的比例。正如信用卡信用評級一樣,需要提高逾期使用者的抽樣比例,增加獲得的資訊量。
第三,奈曼法。即各層應抽樣本數與該層總體數及其標準差的積成正比。這個方法是考慮抽樣成本的方法,核心思想是用最少的抽樣成本獲得最全面的資訊,標準差小的層可以少抽樣,反之則要擴大抽樣量,力求獲得更多有用的資訊。
分層抽樣法的難點首先是在於總體資訊獲得的難度,這一方法前提要獲得總體一定的統計資訊,用以進行分層,而對於很多調查來說,總體資訊是不可知或者難以獲得的。其次,是資料分層的依據難以確定, 分層依據是否有足夠的區分度,各層內部是否具有足夠共性,這都是難點。
行思知識工坊為本人個人工作室,本人軟體工程碩士,擁有db2資料庫認證,軟考軟體設計師、資訊系統專案管理師資格、**企業人力資源管理師資質,多年實戰經驗,提供基於python、r和excel的資料分析服務、人力資源管理諮詢、wps模板製作、php程式開發、資料庫調優、資訊系統專案管理諮詢等服務。
Python實現分層抽樣
首先說明一下我的需求。result 33.txt的檔案中有一些號碼標籤及分類的標記。具體如下 中國農業銀行 銀行 招商銀行信用卡 信用卡 門窗 無關我想做的是從每乙個類標記中隨機抽出1000個標籤。如果該類標籤下的樣本數不足1000,則全部抽取。然後將抽取的結果儲存到另乙個檔案中。具體 如下 盡可能...
記錄抽取及隨機抽樣及分層抽樣
單條件抽取 bc.columns id comments title 將字元型轉成整數型 bc id bc id astype int bc comments bc comments astype int bc title bc title astype str 抽取comments大於10000的...
分層抽樣原理及Oracle實現
在實際的資料探勘應用中,我們往往會從各方收集很多的資料,這些資料每分每秒都在增加,但我們如果用所有的這些資料並無益處。一是資料量過大,處理起來難度會大非常多,要求你的基礎計算平台效能很好,甚至需要用到平行計算,有時是沒有必要的 二是資料都是基於人及人的行為所產生的影響的,而人是會發生變化的,所以久遠...