二、資料度量標準
三、概率分布
四、統計假設檢驗
五、相關和回歸
總結說明
統計學在資料分析的基礎上,研究如何測定,收集,整理,歸納和分析資料規律,以便給出正確訊息的學科。它在資料探勘,自然語言處理,機器學習中都被廣泛使用,比如博主之前的那篇關於規則與統計相結合的詞義消岐方法研究學習筆記,其中作者就用到了統計學。
說明所謂的圖形視覺化就是將自己的資料利用圖形(各種各種的圖形)展現出來,這樣對於使用者來說無疑是最直觀的,最具明顯的來分析自己的資料。比如博主最近遇到專案上的乙個關於器件**的乙個問題,就是將指定的器件按照它的購買**,購買時間使用圖形視覺化(折線圖),這樣我們就能很「舒服」的了解這個器件的基本資訊。
具有哪些圖形?
餅圖條形圖
熱力圖折線圖
箱線圖散點圖
雷達圖儀表圖
例如圖形如下所示
餅圖:
條形圖:
這裡就不一一枚舉了。
資源
相應的案例:
平均數中位數
說明:奇數 n 個數值,則中位數字置:n+1
2\frac
2n+1
偶數 n 個數值,則中位數字置:n
2\frac
2n眾數
期望方差
x是服從分布f的隨機變數,如果 e(x
)e(x)
e(x)
是隨機變數x的期望值(平均數u=e[x]),則隨機變數x或者分布f的方差是:
v ar
(x)=
σ2=∑
e(x−
u)2n
var(x)=\sigma^2=\frac}
var(x)
=σ2=
n∑e(
x−u)
2連續隨機變數
如果隨機變數x是連續分布,並對應概率密度函式f(x
)f(x)
f(x)
,則方差是
v ar
(x)=
σ2=∫
(x−u
)2f(
x)dx
=∫x2
f(x)
dx−u
2var(x)=\sigma^2=\int(x-u)^2f(x)dx=\int x^2f(x)dx-u^2
var(x)
=σ2=
∫(x−
u)2f
(x)d
x=∫x
2f(x
)dx−
u2此處 u的期望值 u=∫
xf(x
)dxu=\int xf(x)dx
u=∫xf(
x)dx
離散隨機變數
如果隨機變數x是具有概率質量函式的離散概率分布x1→
p1,.
..xn
→pnx_1 \rightarrow p_1,...x_n \rightarrow p_n
x1→p1
,..
.xn
→pn
, 則:
v ar
(x)=
∑i=1
npi(
xi−u
)2=∑
i=1n
(pix
i2)−
u2var(x)=\sum_^p_i(x_i-u)^2=\sum_^(p_ix_i^2)-u^2
var(x)
=∑i=
1np
i(x
i−u
)2=∑
i=1n
(pi
xi2
)−u
2標準差
方差開方就是標準差
標準分幾何概率
二項分布
正態分佈
泊松分布
假設檢驗是推論統計假設的一種方。而「統計假設」是可通過觀察一組隨機變數的模型進行檢驗的科學假說。一旦能估計未知引數就會希望根據結果對未知的真正引數值做出適當的推論。假設檢驗的種類包括:t檢驗,z檢驗,卡方檢驗,f檢驗,等等。
這裡博主只是提出知識點,並不過多深究(論述統計學的知識點)
回歸1:最佳擬合線**
2:線性回歸
3:邏輯回歸
以上五個部分的簡單概括,都是關於統計學的相關知識點。前言也說明了關於統計學用到的範圍特別的廣泛。所以運用好統計學是非常重要的。
統計學 統計學基礎
五種抽樣方法 1 簡單隨機 選取熱量相同且每個樣本有同等概率被選擇的樣本 2 系統 簡單的系統抽取樣本 3 任意 使用乙個碰巧很容易被選擇的樣本 4 整群 先將總體分為不同組群,從中隨機挑選幾個組群作為樣本 5 分層 定義層級,在每個層級隨機抽取樣本。抽樣方法的選擇一定要符合 1 只有樣本對總體具有...
統計學陷阱
1.內在有偏的樣本 樣本條件不一致,不具備準確性 3.沒有披露的資料 樣本過低 4.毫無意義的工作 利用毫無價值的資料宣傳產品,提高產品競爭力 5.驚人的統計圖形 圖表資料不展示基數,或省略中間部分 刻度值欺騙 6.平面圖形 在三維角度上,根據增加倍率相應變寬變高,達到視覺欺騙 7.不相匹配的資料 ...
統計學入門
參考學習資料 可汗學院 統計學 課程12 26 樣本均值 sample mean 計算方法 樣本總數求和 樣本個數 總體方差 sum 單個數值 平均值 2 數值個數 sum 樣本數值 樣本平均值 2 樣本個數 問題 會出現因取樣偏差導致的方差偏移 優化方法 sum 樣本數值 樣本平均值 2 樣本個數...