資料分析之統計分析基礎 1

2021-10-19 09:19:13 字數 1329 閱讀 5787

變數型別和測量尺度

抽樣方法

參考書目

統計,顧名思義即將資訊統括起來進行計算的意思,對資料進行定量處理的理論與技術。統計分析常常指的是對收集到的有關資料資料進行整理歸檔並進行解釋的過程。

按照功能標準劃分,可分為描述性統計和推斷統計。

描述統計是將研究中所得的資料加以整理、歸類、簡化或繪製成圖表,以此描述和歸納資料的特徵及變數之間的關係的一種最基本的統計方法。描述統計主要涉及資料的集中趨勢、離散程度和相關強度,最常用的指標有平均數、標準差、相關係數等。

推斷統計指用概率形式來決斷資料之間是否存在某種關係及用樣本統計值來推測總體特徵的一種重要的統計方法。推斷統計包括總體引數估計和假設檢驗,最常用的方法有z檢驗、t檢驗、卡方檢驗等。

總體中—引數,描述統計

樣本中—統計量,推斷統計

標準誤實際上就是某一統計量抽樣分布的標準差。

定量(quantitative 連續 continuous)

定性(qualitative 分類 categorical)

定類(nominally scaled variable)

利用無權重或無數值的符號以識別變數的不同水平(男:0,女:1)

定序(ordinal variable)

取值含有權重

定距(interval)

取值含有相對值資訊

定比(ratio)

取值含有距離資訊

含有n個個體的總體中逐個不放回地抽取n個個體作為樣本的一種方法。

分為重複抽樣和不重複抽樣。在重複抽樣中,每次抽樣的單位仍放回總體,樣本中的單位可能不止一次被抽中。不重複抽樣中,抽中的單位不再放回總體,樣本中的單位只能抽中一次。

抽籤法

隨機數字表法

首先將總體中各單位按照一定順序排列,根據樣本容量要求去選擇抽選間隔,然後隨機確定起點,每隔一定的間隔抽取乙個單位的一種抽樣方式.

等距抽樣:隨機起點等距抽樣、半距起點等距隨機抽樣、隨機起點對稱等距抽樣、迴圈等距抽樣

排序方法:按照無關標誌排序、有關標誌排序

從乙個可以分成不同子總體的總體中,按規定的比例從不同層中隨機抽採樣品的方法。優點代表性好,抽樣誤差比較小。

將總體分為許多群,每個群由個體按一定方式結合而成,然後隨機地抽取若干群,並由這些群中的所有個體組成樣本。

《白話統計學》

《概率論與數理統計》

SAS統計分析基礎

用於一般統計描述 proc mean 過程 詳細統計描述過程 proc univariate 過程 正態性檢驗 proc univariate normal nvar x run 兩均數的比較 t.test 一般用proc ttest class 分組變數 var x run 多個樣本均數的比較 a...

資料特徵分析 統計分析

統計分析是對定量資料進行統計描述,常從集中趨勢和離中趨勢兩個方面分析。集中趨勢 指一組資料向某一中心靠攏的傾向,核心在於尋找資料的代表值或中心值 統計平均數 算數平均數和位置平均數 算術平均數 簡單算術平均數和權重算術平均數 位置平均數 中位數和眾數 離中趨勢 極差和分位差 標準差和方差 隨機生成整...

Pandas統計分析基礎之DataFrame

3 更改dataframe中的資料 4 增加dataframe中的資料 刪除dataframe中的資料 dataframe類似於資料庫的表或者excel的 panda將資料讀取之後,以dataframe的資料結構儲存在記憶體中。下面就來介紹一下dataframe的增刪查改操作。因為dataframe...