應用統計學與R語言實現學習筆記(一) 簡介

2021-07-31 10:38:07 字數 1765 閱讀 5473

本部分內容是我這學期公選課《應用統計學》的學習筆記,主要參考書目為如下兩本:

賈俊平,《統計學》(第五版),中國人民大學出版社,2012.

何曉群,《多元統計分析》(第三版),中國人民大學出版社,2012.

本篇為第一章節,也就是introduction(簡介)部分。

常常聽到的一句話,好的科學**解決乙個科學問題,科學的誕生本身就和問題離不開。老生常談的就是像牛頓被蘋果砸了之後,就想到乙個問題,為啥蘋果不飛上天和太陽肩並肩呢?

我答:因為會被烤焦。

。。。

嗯,幽默一下。

總結下來說,科研中有很多問題跟統計學相關(筆者是地學和生態學背景,就提點接地氣的問題)。

譬如:

(1)人口研究當中,我們希望了解65歲以上老年人所佔的比例,以便於我們更好地研究老齡化的問題。

(2)從幾個監測站點的汽車尾氣監測推斷今天北京市的汽車尾氣排放是否達到大氣汙染物排放標準。

(3)影響植物光合作用的因素是什麼,各個因素的影響有多大?

以及等等等。

總結來說,可以分為以下的幾類:

(1)統計量問題;(2)引數(推斷統計)問題;(3)歸因問題;(4)**問題。

那麼統計學又是什麼呢?

翻譯過來就是

統計學是收集、分析、表述和解釋資料的科學( 不列顛百科全書)

所以統計學包括了:

也就是說,概率論是——我知道箱子裡面是什麼樣的,我想知道我拿在手裡的球是什麼樣的可能性分別有多大。統計學則是——我不知道箱子裡面是什麼樣的,但是我已經知道我拿在手裡的球是什麼樣的,我想靠我手裡的球的樣子去推斷箱子是什麼樣的。

有興趣的也可以檢視知乎上的回答。

總結起來,統計學的研究過程就像下面的流程圖。

當然這裡面很容易出問題的是解釋資料——數學上有意義,並不代表現實中有意義,非常容易出現很多的悖論。

比如太陽公升起的時間與每個人起床時間相關性很高,但是我不能說因為每個人都起床了,所以太陽公升起了。

從前面提到的我們知道,統計方法是通過已知的觀測資料去分析隨機現象的數量規律。因此統計方法就包括了兩大部分:描述統計與推斷統計。

其實核心就在於我們所觀測的樣本是否等於總體。

樣本=總體,那麼使用描述統計就能夠用來描述我們所研究的現象。

樣本≠總體,那麼使用推斷統計才能較為準確地描述我們所研究的現象。

事實上,近年來火熱的大資料就是因為技術(感測器等)發展,我們足夠獲取可以近似等於全樣本甚至全樣本的資料而不是以往的樣本資料所引起的一場變革,也就是說是由資料驅動的變革。

統計學應用領域十分廣泛,這裡就不細談了。

由於應用廣泛,所以統計資料型別也是多樣化的。不同的劃分標準型別也不相同:

(1)按照計量層次劃分

(2)按收集方法劃分

(3)按時間狀況劃分

統計學中的基本概念分別是:

總體——研究物件的全體

樣本——研究物件的部分個體,觀測資料

引數——用來描述總體的數學度量

統計量——用來描述樣本的數學度量

變數——描述現象的某種特徵

《R語言資料探勘》 1 8 統計學

1.8 統計學 統計學研究資料收集 資料分析 資料解釋或說明,以及資料表示。作為資料探勘的基礎,它們的關係將在下面章節中說明。1.8.1 統計學與資料探勘 第一次使用資料探勘這個術語的人是統計學家。最初,資料探勘是乙個貶義詞,指的是企圖提取得不到資料支援的資訊。在一定程度上,資料探勘構建統計模型,這...

R語言統計學習 1簡介

統計學習是指一組用於理解資料和建模的工具集。這些工具可分為有監督或無監督。1 監督學習 用於根據乙個或多個輸入 或估計輸出。常用於商業 醫學 天體物理學和公共政策等領域。2 無監督學習 有輸入變數,但沒有輸出變數,可以從這些資料中學習潛在關係和資料結構。以下簡單的用3個資料集來說明。我們希望了解雇員...

統計學 中心極限定理(R語言)

中心極限定理用通俗的話來講就是,假設有乙個服從 2 的總體,這個總體的分布可以是任意分布,不用是正態分佈,既可以是離散的,也可以是連續的。我們從該分布裡隨機取n個樣本x1,x2,xn,然後求這些樣本的均值x mean,這個過程我們重複m次,我們就會得到x mean 1,x mean 2,x mean...