統計學速成

2021-10-21 14:14:48 字數 2009 閱讀 4686

資料的中間部分,也被統計學家稱為集中趨勢。

1,巨數法則:如果樣本足夠大,極端不可能發生的怪事、奇事、離譜事也是有可能發生的,也就能理解那些所謂「驚人」的巧合。令人不可思議的巧合若放在大背景下觀察,發生的概率就大很多了。由此提醒人們別被巧合忽悠。

乙個人買兩張彩票都中頭獎的機會是幾萬億分之一,然而在幾百萬彩民裡頭,出現乙個這樣的幸運兒的機會則是幾十分之一。

2,集中趨勢度量:集中趨勢又稱「資料的中心位置」、「集中量數」等。常用的有平均數、中位數和眾數等,它們在不同型別的分布數列中有不同的測定方法。

中位數:是按順序排列的一組資料中居於中間位置的數,代表乙個樣本、種群或概率分布中的乙個數值。

平均數:表示一組資料集中趨勢的量數,是指在一組資料中所有資料之和再除以這組資料的個數。

眾數:在統計分布上具有明顯集中趨勢點的數值,代表資料的一般水平。

3,期望

數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的概率乘以其結果的總和,是最基本的數學特徵之一。它反映隨機變數平均取值的大小。

大數定律規定,隨著重複次數接近無窮大,數值的算術平均值幾乎肯定地收斂於期望值。

4,偏態

偏態分布是與「正態分佈」相對,分布曲線左右不對稱的資料次數分布,是連續隨機變數概率分布的一種。可以通過峰度和偏度的計算,衡量偏態的程度。可分為正偏態和負偏態,前者曲線右側偏長,左側偏短;後者曲線左側偏長,右側偏短

1,散布度量

考察評估數值資料散布或發散的度量。這些度量包括極差、分位數、四分位數、百分位數和四分位數極差。五數概括可以用盒圖顯示,它對於識別離群點是有用的。方差和標準差也可以指出資料分布的散布。

2,極差

統計資料中的變異量數(英語:measures of variation),為最大值與最小值之間的差額,即最大值減最小值後所得數值。極差沒有充分利用資料的資訊,但計算十分簡單,僅適用樣本容量較小(n<10)情況。極差不能用作比較,單位不同。

3,分位數

分位數就是用概率作為依據將一批資料分開的點。

四分位數(quartile)是統計學中分位數的一種,即把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值就是四分位數。

q1,下中位數,25%位置

q2,中位數,50%位置

q3,上中位數,75%位置

利用概率分布來為我們確定當資料有序分布後處於某個特殊位置的數值,再利用其為我們達到選擇,篩選,修正等目標。

百分位數,將一組資料從小到大排序,並分成一百等份,則某一百分位所對應資料的值就稱為這一百分位的百分位數。

4,方差、標準差

方差是在概率論和統計方差衡量隨機變數或一組資料時離散程度的度量。是指每個樣本值與全體樣本值的平均數之差的平方值的平均數。標準差有計量單位,而方差無計量單位,但兩者的作用一樣。

故在此僅介紹標準差。標準差用平方的方法消除了正負號,因而它是最常用、最重要的離散趨勢統計量。標準差越大,表示變數值之間的差異越大,各資料距離均值越遠,則平均數的代表性就越低。反之,標準差越小,表示變數值之間的差異越小,各資料距離均值較近,則平均數的代表性就越高。

標準差在實際生活中也有廣泛的應用。例如,可以用標準差來測定居民收入分配的差異程度,還可以用來反映平均收支、平均結餘、平均產量等經濟變數的代表性等。

統計學 統計學基礎

五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...

統計學 論統計學知識點

二 資料度量標準 三 概率分布 四 統計假設檢驗 五 相關和回歸 總結說明 統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就...

統計學陷阱

1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...