統計學是收集和分析資料的科學與藝術
統計學的構成要素:問題,資料,方法
方法跟著資料走,資料跟著問題走發展階段:古典統計學-近代統計學-現代統計學
分類 1
分類 2分類 1
按測量尺度分:
分類 2
分類 3
按時空狀態分:
分類 4
按表現形式分:
分類 5
按資料結構分:
總體:所有物件的總稱,分為:有限總體,無限總體(可數和不可數);也可以分為:具體總體,抽象總體(類與被例項化的類)
樣本:
(1)樣本容量:乙個樣本所包含的單位數;
(2)樣本數量:總體種抽取的樣本元素的總個數
他們之間的關係:變數:根據資料計量尺度分為:定性變數,定量變數;根據影響因素分為:確定性變數,隨機變數;根據資料連續性分為:離散型變數,連續型變數。總體是需要研究的物件,樣本則是反映總體而被觀測的物件。
標誌:用以描述表現個體
特徵的名稱,分為不變標誌(比如戶籍),可變標誌(身高);也可以分為直接標誌,間接標誌。
統計指標:用以描述總體
特徵的名稱,分為總量指標(數量指標),相對指標,平均指標(兩者都屬於質量指標)
我們一般將其分為一手收據與二手資料,一手資料是通過統計調查和觀察實驗得來的,而二手資料是通過公開版物,網路資料等得來的。
一手資料收集方法【調查】:普查,抽樣調查,重點調查,典型調查…
一手資料收集方法【實驗】:完全隨機實驗,隨機分組實驗,拉丁方試驗,正交試驗…
1.1 普查
人口,經濟…
1.2 重點調查
對於重點單位進行調查,數目不一定最多,但佔標誌比重較大,最能反映總體的情況的那個標誌
1.3 典型調查
有意識地選取特定物件進行調查,比如特意選取優秀者調查以學習經驗。
1.4 抽樣調查
抽樣分為:
概率抽樣下面也又很多方法:
而非概率抽樣的思想:
方便:比如街上派問卷,報刊的問卷那些
判斷:根據主觀經驗從總體抽取有代表性的樣本
滾雪球:先找到最初的樣本單位,根據他們提供的資訊去獲取新的樣本單位,比如調查犯罪人員,抓到乙個,然後根據他們提供的人員繼續抓。
2.1 分布數列:根據一定的分組標誌對原始資料進行分組,並按照一定順序進行排列而產生的數列
比如說,現在根據收入分為:2-3w,5-10w,10-80w…
2.2 組距與組數與組中值:
對於組距分為等距與非等距,對於組數n的確定,根據公式:
n =1
+3.33∗l
gn(總
數)n=1+3.33*lgn(總數)
n=1+3.
33∗l
gn(總
數)對於組距確定公式:
d =m
ax−m
innd=\frac
d=nmax
−min
上限:max
下限:min
組中值:max
+min
2\frac
2max+m
in
假如在缺限組:比如缺了下限例如只有
x ≤m
axx\leq max
x≤ma
x組中值:
m ax
−dne
ar2\frac}
2max−d
near
假如是缺上限則是:
m in
+dne
ar2\frac}
2min+d
near
dne
ard_dn
ear
是鄰近組的組中值
2.3 累計頻數和累計頻率
累計頻數和頻率意思就是比如:2-5w的人群佔了20%,那麼2-10w的人群佔了40%,這40%裡面有20%的人。
需要區分:
直方圖:
折線圖來自於直方圖;
箱線圖:
首先找出一組資料的5個特徵值:最大值,最小值,中位數,上四分位數,下四分位數
從統計學看NLP之概述(1)
在我看來nlp的所有思想都是基於統計學來的,不管是hmm,crf還是說目前火熱的神經網路,而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理,所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。說到機器翻譯,目前大部分都是採用seq2seq的模型,如果你是...
統計學筆記1 置信區間
作為資料科學的重要基礎學科,我開始share統計學的學習筆記。單個正態總體,總體方差已知,均值的置信區間,基於中心極限定理 標準正態分佈,適用於樣本量大的情況 n 100 單個正態總體,總體方差未知,均值的置信區間,基於t分布,適用於樣本量較小的情況 bootstrap,通過數值模擬求置信區間 bo...
赤裸裸的統計學 筆記1
對於描述統計學的過分依賴會帶來誤導性的結論或導致不良行為。標準差是乙個能夠幫我們從一大堆雜亂無長得數字中發現真理的統計數值。用它來衡量資料相對於平均值的分散程度。平均值 百分差 百分率 將一系列複雜的資訊濃縮成乙個數字,這是所有指數都具備的優點 由於在計算方差時每個數值和平均值只差都進行了平方,因此...