統計學 之 資料分析 常用方法盤點(三)

2021-10-09 12:46:04 字數 3767 閱讀 1887

阿平 | 作者

知乎 | **

1

判別分析

1. 定義

根據已掌握的一批分類明確的樣品建立判別函式,使產生錯判的事例最少,進而對給定的乙個新樣品,判斷它來自哪個總體。

2. 與聚類分析區別

聚類分析的知識我們在第一部分已經提到了→『統計學 x 資料分析』常用方法盤點 part.1

3. 進行分類

fisher判別分析法

bayes判別分析法

bayes判別分析法比fisher判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了資料的分布狀態,所以一般較多使用。

2

時間序列分析

動態資料處理的統計方法,研究隨機資料序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、迴圈波動和不規則波動

主要方法:移動平均濾波與指數平滑法、arima橫型、量arima橫型、arimax模型、向呈自回歸橫型、arch族模型

時間序列是指同一變數按事件發生的先後順序排列起來的一組觀察值或記錄值。構成時間序列的要素有兩個:

實際資料的時間序列能夠展示研究物件在一定時期內的發展變化趨勢與規律,因而可以從時間序列中找出變數變化的特徵、趨勢以及發展規律,從而對變數的未來變化進行有效地**。

時間序列的變動形態一般分為四種:長期趨勢變動,季節變動,迴圈變動,不規則變動

1. 時間序列**法的應用

系統描述:根據對系統進行觀測得到的時間序列資料,用曲線擬合方法對系統進行客觀的描述

系統分析:當觀測值取自兩個以上變數時,可用乙個時間序列中的變化去說明另乙個時間序列中的變化,從而深入了解給定時間序列產生的機理

**未來:一般用arma模型擬合時間序列,**該時間序列未來值

決策和控制:根據時間序列模型可調整輸入變數使系統發展過程保持在目標值上,即**到過程要偏離目標時便可進行必要的控制

2. 特點

(1)時間序列分析**法是根據市場過去的變化趨勢**未來的發展,它的前提是假定事物的過去會同樣延續到未來

(2)時間序列分析**法突出了時間因素在**中的作用,暫不考慮外界具體因素的影響。

3

生存分析

用來研究生存時間的分布規律以及生存時間和相關因索之間關係的一種統計分析方法

1. 包含內容

2. 方法

統計描述

包括求生存時間的分位數、中數生存期、平均數、生存函式的估計、判斷生存時間的圖示法,不對所分析的資料作出任何統計推斷結論

非引數檢驗

檢驗分組變數各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響。

半引數橫型回歸分析

在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是cox比例風險回歸分析法

引數模型回歸分析

已知生存時間服從特定的引數橫型時,擬合相應的引數模型,更準確地分析確定變數之間的變化規律

4

典型相關分析

相關分析一般分析兩個變數之間的關係,而典型相關分析是分析兩組變數(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。

典型相關分析的基本思想和主成分分析的基本思想相似,(主成分分析知識→『統計學』最常用的資料分析方法都在這了!part.2)它將一組變數與另一組變數之間單變數的多重線性相關性研究轉化為對少數幾對綜合變數之間的簡單線性相關性的研究,並且這少數幾對變數所包含的線性相關性的資訊幾乎覆蓋了原變數組所包含的全部相應資訊。

5

r0c分析

r0c曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱座標,假陽性率(1-特異度)為橫座標繪製的曲線。

用途:

6

其他分析方法

多重響應分析距離分析專案分析對應分析決策樹分析神經網路系統方程蒙特卡洛模擬等。

決策樹分析與隨機森林:儘管有剪枝等等方法,一棵樹的生成肯定還是不如多棵樹,因此就有了隨機森林,解決決策樹泛化能力弱的缺點。(可以理解成三個臭皮匠頂過諸葛亮)

決策樹(decision tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種**法。

由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。

在機器學習中,決策樹是乙個**模型,他代表的是物件屬性與物件值之間的一種對映關係。entropy = 系統的凌亂程度,使用演算法id3, c4.5和c5.0生成樹演算法使用熵。這一度量是基於資訊學理論中熵的概念。

分類樹(決策樹)是一種十分常用的分類方法。他是一種監管學習,所謂監管學習就是給定一堆樣本,每個樣本都有一組屬性和乙個類別,這些類別是事先確定的,那麼通過學習得到乙個分類器,這個分類器能夠對新出現的物件給出正確的分類。這樣的機器學習就被稱之為監督學習。

優點

決策樹易於理解和實現,人們在在學習過程中不需要使用者了解很多的背景知識,這同時是它的能夠直接體現資料的特點,只要通過解釋後都有能力去理解決策樹所表達的意義。

對於決策樹,資料的準備往往是簡單或者是不必要的,而且能夠同時處理資料型和常規型屬性相對短的時間內能夠對大型資料來源做出可行且效果良好的結果。易於通過靜態測試來對模型進行評測,可以測定模型可信度;如果給定乙個觀察的模型,那麼根據所產生的決策樹很容易推出相應的邏輯表示式。

缺點

七周速學資料分析(統計學篇)

前面我們為大家講述了excel 資料視覺化 資料分析思維 資料庫的知識。學會了這些就相當於學會了資料分析一般的內容,但是這些知識並不能構成乙個完整的資料分析知識體系,還需要學習統計學 python r以及業務知識,現在就給大家講解一下統計學的知識。就目前而言,很多資料分析師統計學基礎知識並不是很重視...

統計學之方差分析

方差分析 analysis of variance,簡稱anova 是用於兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析中,由於各種因素的影響,研究所得的資料呈現波動狀,這種波動可以分為組間波動和組內波動兩種情況。單因素方差分析 食物1食物2食物335 5236 147均值 2 均值 4 均值 6...

資料分析必備的統計學(二) 假設檢驗

講完概率分布,再來講講統計學的最後乙個知識點 假設檢驗。假設檢驗是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。事先對總體引數或分布形式作出某種假設,然後利用樣本資訊來判斷原假設是否成立,採用邏輯上的反證法,依據統計上的小概率原理。為了更好的解釋,這裡舉個例子。假設我有一袋豆子,袋子裡有紅豆...