一、
問題:平均數——描述了資料的中心所在,但是,無法描述資料的分散情況。
目的:描述資料相對於,平均數的分布情況。
二、目錄:
1.全距(極差)
2.四分位距
3.箱型圖
4.方差、標準差
5.標準分
三、1.全距(極差):
1.1 計算方法: 全距 = max(上界) - min(下界)
1.2
上界——資料集中的最大值max
下界——資料集中的最小值min
1.3 意義:描述了資料集的寬度。
1.4 優點:最簡單
缺點:1.全距只描述了,資料的寬度,沒有描述在上、下界之間的資料的真是形態是如何分布的。
2.全距極容易受到,異常值的影響。
解決方法:如何擺脫異常值影響——只使用資料中心周圍的數值——四分位距
2.四分位距:
2.1 定義:
將資料一分為4,最小的四分位數稱為下四分位數(q1),最大的四分位數稱為上四分位數(q3),中間的四分位數即,中位數(q2)。
2.2 四分位距(iqr):
每兩個四分位數之間的距被稱為四分位距(iqr)
四分位距 = 上四分位數 — 下四分位數
iqr = q3 — q1
2.3 如何計算?
step1:排序
將所有的資料按照公升序進行排列。———一共n個資料
step2:求下四分位數q1的位置:
2.1 計算:n ÷ 4
2.2 a: 如果n ÷ 4結果為整數,則q1位於n ÷ 4這個位置和下乙個位置之間,取這兩個位置上的數值的平均值。
b: 如果n ÷ 4結果不是整數,則將n ÷ 4結果向上取整,所得結果即為的q1位置
eg: n = 6時,n ÷ 4 = 1.5,向上取整——>得2,q1位置為2
step3:求下四分位數q3的位置:
2.1 計算:3n ÷ 4
2.2 a: 如果3n ÷ 4結果為整數,則q3位於3n ÷ 4這個位置和下乙個位置之間,取這兩個位置上的數值的平均值。
b: 如果3n ÷ 4結果不是整數,則將3n ÷ 4結果向上取整,所得結果即為的q3位置
eg: n = 6時,3n ÷ 4 = 4.5,向上取整——>得5,q3位置為5
step4:求iqr:
iqr = q3 — q1
2.4 優點:與全距相比,四分位距,可以較少的受到異常值的影響。
原因:四分位距僅僅使用了位於中間部分的50%的資料,而異常值是不可能位於中間部分的,從而將資料中的異常值剔除了。
缺點:a.只度量了資料的分散性,但是沒有度量資料的穩定性。
b.由於為了剔除極端值異常值,只考慮了部分資料,不能完全反映資料整體。
2.5 意義:可以對不同的資料集進行比較,而且比較結果不會被異常值扭曲
(全距極差存在問題:全距非常容易收到異常值的影響,只要摻進去乙個異常值,求出的全距就會是天差地別
採用四分位距,只關注資料**的50%資料,這樣就排除了異常值的影響。)
3. 百分位數:
3.1 將資料分成100份,起作用的數值被稱為百分位數。
3.2 第k百分位數,位於資料的k%出的數值,記為:pk
3.3 用途:a. 通過百分位數確定某個數值相對於其他數值的高低。
b.劃分名次、檔次、排行。
3.4 pk 的求法:
step1:將所有數值按照公升序排序。
step2:計算k × (n ÷ 100)
step3: a.如果k × (n ÷ 100) 的值為整數,則第k百分位數處於k × (n ÷ 100)位和下一位數之間,去這兩個數的平均值,即為pk
b.如果k × (n ÷ 100) 的值不是整數,將結果向上取整,得到的結果即為第k百分位數的位置。
4.箱線圖
4.1 作用:用來顯示各種距。
4.2 畫法:2種
法一:step1:先畫出乙個箱子,箱子的左邊是下四分位數q1,右邊是上四分位數q3。
step2:在箱子中,畫一條直線,標註出中位數q2
step3:在箱子兩邊,畫出「線」,顯示出資料的上界max、下界min和全距
法二:5.方差σ2與標準差σ:
5.0 為什麼有了全距和四分位距,還要有方差、標準差?
方差σ2與標準差σ的出現是由於,四分位距iqr存在一些問題。
a.四分位距iqr只度量了資料的分散性,但是iqr沒有度量資料的穩定性。
b.由於為了剔除極端值異常值,iqr只考慮了部分資料,不能完全反映資料整體。
5.1 如何計算?
標準差的計量單位與相應的資料的單位相同
5.2 意義?
標準差σ——度量了資料與均值的距離,從而描述了資料的分散性——各個數值相對於均值而言,如何變化。
如果標準差較大,則意味著數值往往距離均值較遠;如果標準差較小,則數值往往距離均值較近。
6.如何對均值不同,標準差也不同的,不同的資料集進行比較?————標準分z
6.1 如何計算標準分z?
6.2 標準分有何意義?
標準分將不同的資料分布,都轉化為成乙個均值μ=0,標準差σ=1的標準分布。
標準分z,表示的是相對於均值0的位置。
現在的問題:
1.了解不同的箱線圖形式
2.標準分的意義。
內邊距和外邊距
內邊距,在邊框和內容區之間的空白區域。padding 屬性接受長度值或百分比值 或者auto 不允許為負值 1.四個方向內邊距一致時 padding 10px 元素距離外部父元素給邊框的距離均為10px 2.四個方向還可按著上 右 下 左的順序分別定義各內邊距 padding 10px 5px 10...
CSS內邊距和外邊距
一 內邊距 css padding 屬性定義內邊距,即邊框與元素內容之間的空白區域 padding 屬性接受長度值或百分比值,但不允許使用負值 可以依次表達,也可以按照上右下左的順序分別設定各邊的內邊距,各邊均可以使用不同的單位或百分比值 例如h1 等效於 h1 百分數值是相對於其父元素的 widt...
CSS內邊距黑和外邊距
css margin 外邊距 margin 外邊距 屬性定義元素周圍的空間。margin屬性接受任何長度單位 百分數值甚至負值。margin 清除周圍的 外邊框 元素區域。margin 沒有背景顏色,是完全透明的。margin 可以單獨改變元素的上,下,左,右邊距,也可以一次改變所有的屬性。marg...