統計學(二) 讀書筆記

2021-09-11 07:21:45 字數 2218 閱讀 7466

第三章 定量資料的描述分析

對於數值型資料,

1)首先通過直方圖觀察資料分布,是單峰,雙峰還是均勻分布,左偏還是右偏,還是對稱的,

2)然後分析中心趨勢(中位數和均值)和離散趨勢(四分位差,標準差,極差),通常,有偏分布,分析中位數和四分位差,對稱分布,分析均值和標準差,注意,對於單峰分布,其四分位數差通常比標準差要大,若不是這樣,需要重新檢查資料分布是不是無偏的,有沒有異常值存在。

3)細緻討論其他不常見的特徵

對於多峰分布,需要分析出出現的原因,找到原因後,最好再資料分組進行分析;

需要指出明顯的異常值。先對資料計算均值和標準差,然後對剔除異常值後的資料計算均值以及標準差,對他們的差別進行比較說明。異常值的存在對中位數和四分分位數差基本上沒什麼影響。

(均值與中位數相差不大,說明異常值影響不大;對多峰的資料,最好把他們區分開,然後分別進行描述

1.定量資料的描述圖形

1)直方圖

對於數值型資料,把可能觀察到的數量變數數值按照等距方式劃分成乙個組別,然後統計每個組別中數值發生的次數,據此呼出直方圖。直方圖的分組名稱放在水平軸上,相應的頻數用縱軸表示。

2)莖葉圖

能夠實現直方圖的功能,並能顯示每個具體的數值

3)點圖

2.分布的三種型別

1)單峰分布,雙峰分布與均勻分布

峰,指的是直方圖中最長的方塊,也可以理解為是眾數,出現次數最多的那個數。直方圖中只有乙個峰的分布稱為單峰,存在兩個明顯的高峰,稱為雙峰分布,若不存在眾數,並且各長方塊的高度比較接近,就是均勻分布。

2)對稱分布於不對稱分布

把直方圖沿著中間的那條垂線對折,若兩端恰好重疊,稱為對稱分布,反之則為不對稱分布,不對稱分布一邊比另一邊長,若左邊比較瘦長,稱為左偏分布,右端比較瘦長,稱為右偏分布。

3)離群或異常分布

離群值或者異常值,一般遠離分布的主體,孤立於整體資料,因此需要注意。

3.不對稱分布的中心趨勢與離散趨勢

1)中心趨勢

對於單峰且對稱分布,資料分布中心就是將直方圖對折,此時對稱軸的中心就是就是分布的中心;若分布不對稱或者多峰分布的情況下,可以用中位數表示代表性資料。中位數是反映資料中心趨勢的方法之一。

2)離散趨勢

若資料之間的差異程度越大,中位數帶給我們的認識資訊就越少,因此需要測度資料圍繞中心趨勢的變異水平,即資料的散布情況。

極差:觀察比較資料的範圍,即兩個極端值的差值。

極差=最大值-最小值

四分位數差:

極差雖然計算簡單,但是可能會誇大資料間的變異,因此提出一種改進,四分位差。在小於中位數的那部分資料的中位數稱為下四分位數(q1,25%分位數),大於中位數的那部分資料的中位數,稱為上四分位數(q3,75%f分位數)

四分位數差=上四分位數-下四分位數

四分位數是對分布離散程度的比較合理的描述,即使分布有偏或者存在異常值,四分位差也幾乎不會受到干擾,例外的是,對於雙峰分布的資料,無能為力。

3)中心趨勢與離散趨勢的綜合應用--------「5數圖」(python中的箱線圖)

資料分析的具體步驟:

1)明確分析的目的和識別變數。對於數值型資料,可以考慮直方圖,中心趨勢,離散趨勢等來衡量

2)繪製直方圖

3)進一步細化認知資訊,如箱線圖等

4)總結與建議

4.對稱分布的中心趨勢與離散趨勢

1)中心趨勢

對於不對稱或者存在異常值的資料,使用中位數代表資料的中心趨勢,在資料對稱分布的情況下,通常使用平均數或均值。

對於平均數的理解,不同情況下有不同的所指,意識指一般水平,另一實質平均值,根據公式計算得出。理論上來說,均值更能說明資料的中心趨勢,因為他是直方圖的均衡點所在。但實際用中,主要取決於資料本身的性質。主要參考以下原則:

若資料分布單峰對稱且不存在異常值,就用均值表示資料中心趨勢,反之用中位數表示;

若不明確,最好同時用中位數和均值,分析它們的差別。

2)離散趨勢

由於四分位數差有一定的侷限性,如忽略了上下四分位數重甲你的許多資料之間的差異,因此,提出標準差,能夠把每一項資料與均值之間的差都包括進去,但是,與均值一樣,標準差只在對稱分布的情形下才比較適用。取差值的平方,但是有可能放大了差異的程度。

統計是關於變異的科學,離散是統計學中重要的概念,能夠幫助我們明確不知道的東西。資料離散程度越大,四分位數差和標準差的值就越大,相反如果資料都非常接近中心趨勢,計算出來的四分位數差以及標準差的值越小,離散性測量同時告訴我們中心趨勢測度的代表性。若資料完全一樣,則任何乙個資料都能代表中心趨勢,離散型的結果為0.

3)例項講解

《Head First 統計學》讀書筆記

本文目的 最近花了2周時間看完了 head first 統計學 又名 深入淺出統計學 看完後,感覺統計學的知識又撿起來了。在高中和大學的時候,學習統計學的目的很狹隘 為了應付考試。這次看 head first 統計學 的動機卻截然不同,由於前一陣子看了 集體智慧型程式設計 和 資料探勘導論 發現裡面...

《深入淺出統計學》讀書筆記

前言 大腦對於影象的理解效率,遠遠大於對文字的理解效率 結合比單純的影象或者文字更容易被人理解與接受 統計是對大量資訊的簡化,化繁為簡 統計的結果應以影象的方式表達出來,因為影象跟容易被人接受 統計的目的是為了獲得某個結論,進而為決策服務 數 資料 資訊 知識 智慧型 1 數,1 2 3 4 5 n...

統計學習方法讀書筆記

感知機 perceptron 沒啥說的,感知機就是尋找乙個將空間分為兩部分的超平面 前提可分 學習過程既是損失函式極小化的過程。模型 啟用函式 損失函式 推導 首先考慮任意一點x0到超平面的距離 對於誤分類點 xi,yi 來說 所以誤分類點到超平面的總距離 損失函式 損失函式極小化 簡單的梯度下降即...