統計學,尤其是社會統計學有雙重功能:化繁為簡和以小見大,要掌握兩對範疇:描述統計和推論統計、引數估計和假設檢驗。當然為了能夠更好地理解這兩個範疇,我們還可以引入統計值與總體值這對範疇,以幫助我們進行理解,
統計學中,當我們拿到一組資料時,我們並不對他的具體數值或每個數值的大小含義感興趣,而感興趣的是每個數值在這一組**現的次數,或者說同組資料中有幾個不同資料,每個資料出現的頻次,這稱之為頻次分布狀況,統計學關注的是分布狀況。
那麼我們進一步觀察我們拿到的是一組資料,還是多組資料,如果是一組資料,那它應該只包括乙個變數,即對乙個問題做出選擇判斷,如性別、年齡等,如果既有性別又有年齡,甚至還包括別的變數,那它就是多變數。
對於一組單變數資料,我們設法利用工具將它直白簡練地呈現出來,這就利用到了分布表和分布圖,分布表有頻次分布表和累計分布表兩類,又會因定類、定序、定距、定比的變數型別差異而存在細微區別,分布圖有條形圖、直方圖、曲線折線圖、扇形圖,當然也有累計的分布圖。定類變數可以選擇用扇形圖(圓瓣圖)、條形圖(各長條離散分開)、定序變數可以選用條形圖,定距變數可以用直方圖、折線圖,且直方圖僅適用於定距變數。
集中趨勢分析告訴了我們一組資料可以用乙個資料代表,但我們還知道,這組資料其實存在差異,那麼它的差異情況怎麼樣呢?這個集中值能代表的程度如何?這就需要離散趨勢分析。同樣,這種離散趨勢統計量也有四個——異眾比率、極差、四分互差和標準差。
極差是最大值減去最小值,它對整組資料的分哺狀況不敏感,一般適用於定序及以上變數
四分位差又稱四分互差,是定序以上變數分散程度的一種方法,將一組資料按照一定序列排列,然後把它們劃分為四個相等部分,第三個四分位置上的值與第乙個四分位置上的值之差就是四分位差,在中位值相同的情況下,四分位差越大,中位值的代表性越低。
標準差與方差適用於定距及以上變數,方差是將一組各個觀察值 與其平均值 之差的平方和除以全部觀察總數n,方差的平方根就是標準差。
與標準差緊密相關的是離散係數(又稱相對變異係數crv)是標準差除以平均值,它消除了平均值和計算單位的影響,可以對同一總體的兩種不同的離散趨勢統計量進行比較,或對兩個不同總體中的同一離散趨勢統計量進行比較。crv越大,表示該變數的分布越離散,即其平均值的代表性越低。
以上就是對單變數的描述統計,那麼接下來看單變數的推論統計。描述統計法就是幫助簡化資料的方法,而推論統計法就是根據抽樣取出的資料推論母體的資料。
為什麼要進行推論統計呢?因為社會統計學的一大作用就是以部分反映總體,通過抽取的一組資料來反映全體狀況,所以在介紹單變數推論統計前要介紹以下概率和抽樣的知識,但在實際的操作中,抽樣以及背後的概率知識是在資料處理前就已經完成的。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學 論統計學知識點
二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...
統計學陷阱
1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...