《統計學習方法》 第一章 1

2022-08-01 04:24:12 字數 2912 閱讀 6950

基於資料、構建概率統計模型、進行**。

學習是乙個系統不斷優化的過程,統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器學習。

統計學習三要素:模型、策略、演算法

資料,資料起到演算法迭代更新的效果,且大資料具有多維度、資料量大等特點時,能夠更好的用於機器學習

大數定理,假設資料獨立同分布,模型在同一假設空間

1.監督學習(標註資料):學習輸入到輸出的對映的統計規律。

輸入空間-->特徵空間-->輸出空間。

2.非監督學習:無標註資料中學習**模型,使用者發掘統計規律和資料的潛在結構

3.強化學習:在智慧型系統在與環境的連續互動中學習最優行為策略的機器學習問題。

智慧型系統的目標不是短期獎勵的最大化,而是長期累積獎勵的最大化。強化學習過程中,系統不斷的試錯,以達到學習最優策略的目的(從所有可能的策略中選出價值函式最大的策略)

例子:馬爾科夫不確定模型可見詳情鏈結

概率模型:決策樹、樸素貝葉斯、隱馬爾科夫、條件隨機場、概率潛在語義分析、潛在狄利克雷分配、高斯混合模型 (一定存在聯合概率分布 )

非概率模型:感知機、支援向量機、k近鄰、adaboost、k-means、潛在語義分析、神經網路

邏輯回歸既可以看成概率模型也可以看成非概率模型。

條件概率分布最大化得到函式

函式歸一化後得到條件概率分布(根據函式的不同,又可以分為線性和非線性)

概率模型與非概率模型的區分不在於輸入與輸出的對映關係。而在於模型的內在結構

貝葉斯學習:利用貝葉斯定理,計算在給定資料條件下模型的條件概率(已知東西被偷),並應用貝葉斯定理對資料進行**(到底是誰偷的)

樸素貝葉斯和潛在狄利克雷分配都屬於貝葉斯學習

貝葉斯和最大似然估計的不同:引數

最大似然估計和貝葉斯估計最大區別便在於估計的引數不同,最大似然估計要估計的引數θ被當作是固定形式的乙個未知變數,然後我們結合真實資料通過最大化似然函式來求解這個固定形式的未知變數!

貝葉斯估計則是將引數視為是有某種已知先驗分布的隨機變數,意思便是這個引數他不是乙個固定的未知數,而是符合一定先驗分布如:隨機變數θ符合正態分佈等!那麼在貝葉斯估計中除了類條件概率密度p(x|w)符合一定的先驗分布,引數θ也符合一定的先驗分布。我們通過貝葉斯規則將引數的先驗分布轉化成後驗分布進行求解!

同時在貝葉斯模型使用過程中,貝葉斯估計用的是後驗概率,而最大似然估計直接使用的是類條件概率密度。

比對link

核方法:使用核函式表示和學習非線性模型的一種機器學習方法,一些線性模型可以用相似度計算,也就是向量內積計算,核方法可以把線性模型擴充套件到非線性模型上進行學習。

核函式:是對映關係的內積,對映函式本身僅僅是一種對映關係,並沒有增加維度的特性,不過可以利用核函式的特性,構造可以增加維度的核函式,這通常是我們希望的。

二維對映到三維,區分就更容易了,這是聚類、分類常用核函式的原因。

顯式定義從輸入空間(低維空間)到特徵空間(高維空間)的對映,在特徵空間中進行內積計算。例如支援向量機,把輸入空間的線性不可分問題轉化為特徵空間的線性可分問題。

模型的假設空間包含所有可能的條件概率分布或決策函式。

模型屬於由輸入空間到輸出空間的對映的集合,這個集合屬於**假設空間**,假設空間為函式族,就是相當於有很多備選模型。

按照怎麼樣的準則學習或選擇最優模型,從假設空間中選擇最優模型。
損失函式:模型**一次的好壞,**錯誤的程度,損失函式越小,模型就越好

0-1損失(分類)、平方損失(回歸)、絕對損失(回歸)、對數損失(條件)

期望風險:模型關於聯合分布的期望損失

經驗風險:模型關於訓練樣本集的平均損失,根據大數定理,經驗風險趨於期望風險

2 風險函式:函式度量平均意義下模型**的好壞(現實中由於訓練樣本數量有限,甚至很小,所以用經驗風險估計期望風險常常並不理想,因此要對經驗風險進行一定的矯正)

(1)經驗風險最小化(empirical risk minimization erm),經驗風險最小化的就是最優模型。比如,極大似然估計就是經驗風險最小化的乙個例子

(2)結構風險最小化(structural risk minimization srm),是為了防止過擬合(樣本空間較小時)而提出的。可以等價於正則化(懲罰)。例如,貝葉斯估計中的最大後驗概率估計就是結構風險最小化的例子。當模型是條件概率分布、損失函式時對數函式、模型複雜度有模型的後驗概率表示時,結構風險最小化等價於最大後驗概率估計。

考慮用什麼計算方法得到最優解模型

統計學習方法 第一章

1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....

統計學習方法第一章

1.numpy.poly1d 1,2,3 import numpy as np np.poly1d 1 2,3 poly1d 1 2,3 r np.poly1d 1 2,3 print r 1 62.from scipy.optimize import leastsq 表示scipy.optimiz...

統計學習方法 第一章

1.3 統計學習三要素 1.4 模型評估與模型選擇 1.5 正則化與交叉驗證 1.6 泛化能力 1.7 生成模型與判別模型 1.8 分類問題 1.9 標註問題 1.10 回歸問題 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱為統計機器學習。如果乙個...