最近開始學習這本書,初看感覺有些難度,主要想記錄一些重點知識和一些難的點進行詳細理解。
1.3 統計學習方法三要素
1.3.1 模型
1.3.2 策略
1.3.3 演算法
1.4 模型評估與模型選擇
1.5 正則化與交叉驗證
1.6 泛化能力
1.7 生成模型和判別模型
本書所介紹統計學習(statistical learning)是關於計算機基於資料構建概率統計模型並運用模型對資料進行**分析的一類方法,所要研究的主體是資料。
統計學習的方法可以分為:
統計學習中的一些基本概念:
統計學習三要素,為模型(model)、策略(strategy)即確定模型的準則和演算法(algorithm)即求解最優模型的方法。
監督學習
監督學習的本質是學習輸入到輸出的對映的統計規律。
1)輸入空間、特徵空間和輸出空間
輸入與輸出所有可能取值的集合分別稱為輸入空間(input space)與輸出空間(output space)。
每個具體的輸入是乙個例項(instance),通常由特徵向量(feature vector)表示。這時,所有的特徵向量存在的空間稱為特徵空間(feature space)。
2)聯合概率分布
監督學習假設輸入與輸出的隨機變數x和y遵循聯合概率分布p(x,y)。統計學習假設資料存在一定的統計規律,x和y具有聯合概率分布就是監督學習關於資料的基本假設。
3)假設空間
監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。模型屬於由輸入空間到輸出空間的對映 的集合,這個集合就是假設空間(hypothesis space)。監督學習的模型可以是概率模型或者非概率模型,由條件概率分布或者決策函式來表示。
4)問題的形式化
無監督學習
無監督學習是指從無標註資料中學習**模型的機器學習問題。學習的模型可以實現對資料的聚類、降維或者概率估計。
強化學習
強化學習是指智慧型系統在與環境的連續互動中學習最優行為策略的機器學習問題。假設智慧型系統與環境的互動基於馬爾可夫決策過程,智慧型系統能觀測到的是與環境互動得到的資料序列,強化學習的本質是學習最優的序貫決策。
強化學習的馬爾可夫決策過程是狀態、獎勵、動作序列上的隨機過程,由五元組組成。state、action、transition probability、reward function and discount factor。
半監督學習與主動學習
半監督學習是指利用標註資料與未標註資料學習**模型的機器學習問題。通常有少量標註資料、大量未標註資料,因為標註資料的構建往往需要人工,成本較高。半監督學習旨在利用未標註資料中的資訊,輔助標註資料,進行監督學習,已較低的成本達到較好的學習效果。
主動學習是指機器不斷主動給出例項讓教師進行標註,然後利用標註資料學習**模型的機器學習問題。
半監督學習和主動學習更接近監督學習。
1.概率模型與非概率模型
概率模型取條件概率分布形式,決策樹、樸素貝葉斯、隱馬爾科夫模型、條件隨機場、概率潛在語義分析、潛在狄利克雷分配、高斯混合模型是概率模型。
非概率模型取函式形式,感知機、支援向量機、k近鄰法、adaboost、k均值、潛在語義分析。
條件概率分布最大化後得到函式,函式歸一化後得到條件概率分布。所以,概率模型和非概率模型的區別不在於輸入與輸出之間的對映關係,而在於模型內部結構。
2.線性模型與非線性模型
統計學習模型,特別是非概率模型,可以分為線性模型和非線性模型。如果函式y=f(x)或z=g(x)是線性函式,則稱模型是線性模型,否則稱為非線性模型。
感知機、線性支援向量機、k近鄰、k均值、潛在語義分析是線性模型。核函式支援向量機、adaboost、神經網路是非線性模型。
深度學習實際是複雜神經網路的學習,也就是複雜的非線性模型的學習。
3.引數化模型與非引數化模型
引數化模型假設模型引數的維度固定,模型可以有有限維引數完全刻畫;非引數化模型假設模型引數的維度不固定或者說無窮大,隨著訓練資料量的增加而不斷增大。
感知機、樸素貝葉斯、邏輯斯蒂回歸、k均值、高斯混合模型、潛在語義分析、概率潛在語義分析、潛在狄利克雷分配是引數化模型。決策樹、支援向量機、adaboost、k近鄰是非引數化模型。
引數化模型適合問題簡單的情況,現實中問題往往比較複雜,非引數化模型更加有效。
1.貝葉斯學習
在概率模型的學習和推理中,利用貝葉斯定理,計算在給定資料條件下模型額條件概率,即後驗概率,並應用這個原理進行模型的估計,以及對資料的**。
樸素貝葉斯、潛在狄利克雷分配的學習屬於貝葉斯學習。
2.核方法
核方法是使用核函式表示和學習非線性模型的一種機器學習方法,可以用於監督學習和無監督學習。有一些線性模型的學習方法基於相似度,更具體地,向量內積計算。核方法可以把它們擴充套件到非線性模型的學習,使其應用範圍更廣闊。
核函式支援向量機、核pca和核k均值屬於核方法。
方法 = 模型 + 策略 + 演算法
1.損失函式和風險函式
1)0-1 損失函式
2)平方損失函式
3)絕對損失函式
4)對數損失函式
2.經驗風險最小化與結構風險最小化
經驗風險最小化(erm)的策略認為,經驗風險最小的模型是最優的模型。
結構風險最小化(srm)是為了防止過擬合而提出的策略。結構風險最小化等價於正則化(regularization)。結構風險在經驗風險上加上表示模型複雜度的正則化項。
訓練誤差(training error)是模型關於訓練資料集的平均損失。
測試誤差(test error)是模型關於測試資料集的平均損失。
訓練誤差的大小,對判斷給定問題是不是乙個容易學習的問題是有意義的,但本質上不重要。測試誤差反映了學習方法對未知的測試資料集的**能力,是學習中的重要概念。顯然,給定兩種學習方法,測試誤差小的方法具有更好的**能力,是更有效的方法。
如果給定的樣本資料充足,進行模型選擇的一種簡單的方法是隨機地將資料集切分成三部分,分別為訓練集(training set)、驗證集(validation set)和測試集(test set)。訓練集用來訓練模型,驗證集用於模型的選擇,而測試集用於最終對學習方法的評估。在學習到的不同複雜度的模型中,選擇對驗證集有最小**誤差的模型。由於驗證集有足夠多的資料,用它對模型進行選擇也是有效的。
但是,在許多實際應用中資料是不充足的。為了選擇好的模型,可以採用交叉驗證方法。交叉驗證的基本想法是重複地使用資料;把給定的資料進行切分,將切分的資料集組合為訓練集與測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。
1)簡單交叉驗證
簡單交叉驗證的方法是:首先隨機地將已給資料分為兩部分,一部分作為訓練集,另一部分作為測試集(例如,70%的資料作為訓練集,30%的資料作為測試集);然後用訓練集在各種條件下(例如,不同的引數個數)訓練模型,從而得到不同的模型;在測試集上評估各個模型的測試誤差,選出測試誤差最小的模型。
2)s折交叉驗證
首先隨機地將已給資料切分為s個互不相交、大小相同的子集;然後利用s-1個子集的資料進行訓練模型,利用餘下的子集進行測試模型;將這一過程對可能的s種選擇重複進行;最後選出s次評測中平均誤差最小的模型。
3)留一交叉驗證
s折交叉研究的特殊情形是s = n,稱為留一交叉驗證。
學習方法的泛化能力是指由該方法學習到的模型對未知資料的**能力,是學習方法本質上重要的性質。現實中我們往往採用測試誤差評價學習方法的泛化能力,但這種評價是依賴於測試資料集的。統計學習理論試圖從理論上對學習方法的泛化能力進行分析。泛化誤差就是所學習到的模型的期望風險。
學習方法的泛化能力分析往往是通過研究泛化誤差概率上界進行的,簡稱為泛化誤差上界。
李航統計學習方法筆記1 統計學習方法概論
模型 由輸入到輸出的對映 假設空間 由輸入空間到輸出空間的對映多集合 模型 由條件概率分布p y x 或決策函式y f x 表示 損失函式 度量模型一次 的好壞,用乙個損失函式來度量 錯誤的程度 風險函式 度量平局意義下模型 的好壞 經驗風險 模型f x關於訓練資料集的平均損失 當模型上條件概率分布...
李航 統計學習方法 筆記 1 統計學習方法概論
統計學習由監督學習 非監督學習 半監督學習和強化學習等組成,本書主要討論監督學習。監督學習的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 方法 模型 策略 演算法 在監督學習過程中,模型就是所要學習的條件概率分布或決策函式。策略即從假設空間中選取引數最優模型,模型的分類...
統計學習方法概論 《統計學習方法》李航著
統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。監督學習方法主要包括 分類 標註 與 回歸問題 回歸問題 輸入變數 和 輸出變數 均為連續變數的 問題 分類問題 輸出變數為有限個離散變數的 問題 標註問題 輸入與輸出變數均為變數序列的 問題 統計學習三要素 模型,策略,演算法 損失函式度...