三元式:(ω
,f,p
) ω:
結果集合(ergebnismenge)//指可能出現的結果如擲骰子可能出現的結果是1到6
f⊆2
ω:事件域(raum der ereignisse)//表示感興趣的事件的集合比如擲骰子得出結果為基數
p(wahrscheinlichkeitsmass):每個事件的概率
其中f還具有以下屬性:
1.f可以包括空事件,全事件//triviale ereignis
2.f對vereinigung和komplement閉合//vereinigung指聯合komplement指互補,在這裡指什麼還木弄清楚??待查明
另外p滿足下列屬性:
1.非負(nichtnegativitaet):
2.全事件概率為一:p(
ω)=1
3.符合加法屬性(additivitaet):對於所有的事件a,b∈f
且a∩b
=∅:p
(a∪b
)=p(
a)+p
(b)
隨機變數(zufallsvariable)://不解釋了吧
多變數分布(multivariate verteilungen):多維隨機變數的概率分布
邊緣分布(randverteilungen):
p(x,y)是乙個多變數分布
邊緣分布p(x)=∑b
∈val
(y)p
(x,y
=b)
即當乙個變數已知的條件下,另乙個變數的概率分布
公式: p(
x=a|
y=b)
=p(x
=a,y
=b)p
(y=b
) 不相關性(unabhängigkeit):當乙個變數的概率已知時並不會影響另乙個變數的概率分布,他符合下面的公式: p(
x)=p
(x|y
) p(
x,y)
=p(x
)∗p(
y)離散隨機變數:
f(x)=p(x=x)
f必須非負且∑x
f(x)
=1連續隨機變數:
密度函式(dichtfunktion): p(
x∈[a
,b]=
∫baf
(x)d
x)p(x=v)=0
f(x)≥0
∫∞−∞f(x
)dx=
1 離散:e(x)=∑a
∈val
(x)a
∗p(x
=a)
連續:e(x)=∫v
al(x
)x∗f
(x)d
x 方差:var(x)=e(
(x−e
(x))
2)=e
(x2)
−e(x
)2kovarianz和korrelationsmasse的區別:協方差是未標準化得(nicht normiert)而相關比是標準化了的,他的值域是[−
1,1]
//未標準化指不同的背景(上下文kontext)的值,是不可以進行比較的
兩隨機變數的協方差的定義:co
v(x,
y)=e
((x−
e(x)
∗(y−
e(y)
)))
//協方差是用來度量什麼關係的呢??回頭再查吧
乙個隨機變數的與其自身的協方差就是他的方差
協方差矩陣(kovarianzmatrix):用矩陣的形式表示向量隨機變數不同引數的之間的協方差//他是對稱的,可作為pca的輸入
1.學習各種test的構成
2.了解不同test的作用
3.學會應用不同的test
//數學基礎和test的**將不會被提及
目的:比較兩個分布的關聯性(unabhaengigkeit)
方法:對觀察值和期望值進行比較
公式:χ2
=∑m1
i=1∑
m2j=
1(ni
j−ei
j)2e
ij其中m1
表示第乙個屬性有m1個取值,n表示觀測到的出現的個數,e表示出現個數的期望
結果越**明關聯越大
目的:比較兩個不同的分布是否統一或者識別乙個分布是否與**的一致//同時適用於離散和連續的資料
方法:以樣本的累積頻數分布和特定理論分布比較
例子:比較測量的到的天氣溫度是否與**的一樣
1.首先要進行資料收集,然後畫出關於溫度的頻數分布圖
2.然後依據頻數分布圖,求出相應的累積頻數分布
3.用得到的累積頻數分布和事前**的累積頻數分布做比較,計算差值
4.差值越**明**越準確
目的:比較兩個分布的差異性
方法:假定檢測的兩組資料沒有差異。首先不管分組,把所有資料進行排序,並按數值大小給定乙個值叫秩。秩最小為1,最大為n。如果有相同的值,那麼他們的秩相同,其值為各自秩的平均值。如果這兩個組的秩之和比較大就會得到較小的p值,那麼我們就認為這兩個組之間有顯著的差距
//注 這裡關注的並非分布而是中值
//樣本量太小得話效度會很低
//方法這一段是從別人的blog上照搬過來的 原址早在不知處了
//跳了 佔時沒看明白 回看
//名字就是伯努利實驗,但老師上課講得感覺有點不一樣 弄明白再補吧
是指資料庫的一種呈現方式(repräsentation des datenabstands),他占用明顯比較小得空間,但是他的分析結果確實幾乎不變的
他的主要方法有:
1.數量縮減(numerosity reduction) 縮減資料量
2.維度縮減(dimensionality reduction) 縮減屬性
3.離散化(diskretisierung) 簡化儲存值
針對引數化(parametrisch)和非引數化(nichtparametrisch)的分布有不同的方法
針對引數分布的方法(parametrische ve***hren):
假設資料分布符合特定的模型(modell)
估計模型引數,並且只儲存不在狀況內的資料
針對非引數分布的方法(nichtparametrische ve***hren)
沒有假設
常用的方法有:sampling,clustering,histogramme
//未完待續 雖然可能會待很久的說
統計學基礎之方差分析
一 基本概念 二 型別 1 單因素方差分析 2 雙因素方差分析 3 協方差分析 一 基本概念 方差分析又稱 變異數分析 或 f檢驗 用於兩個及兩個以上樣本均數差別的顯著性檢驗。1 實驗條件,即不同的處理造成的差異,稱為組間差異。用變數在各組的均值與總均值之偏差平方和的總和表示,記作ssb,組間自由度...
七周速學資料分析(統計學篇)
前面我們為大家講述了excel 資料視覺化 資料分析思維 資料庫的知識。學會了這些就相當於學會了資料分析一般的內容,但是這些知識並不能構成乙個完整的資料分析知識體系,還需要學習統計學 python r以及業務知識,現在就給大家講解一下統計學的知識。就目前而言,很多資料分析師統計學基礎知識並不是很重視...
大型資料庫的設開發幾點技巧
大型資料庫設計技巧 分類拆分資料量大的表。對於經常使用的表 如某些參數列或 對照表 由於其使用頻率很高,要儘量減少表中的記錄數量。例如,銀行的戶主賬表原來設計成一張表,雖然可以方便程式的設計與維護,但經過分析發現,由於資料量太大,會影響資料的迅速定位。如果將戶主賬表分別設計為活期戶主賬 定期戶主賬及...