6 機器學習的一般化理論

2021-07-03 02:33:52 字數 1091 閱讀 4903

1.界函式(bounding function)

是指當(最小)突破點為k 時,生長函式m(n) 可能的最大值,記為b(n, k)。

顯然,當k=1時,b(n, 1) = 1; 當k > n 時,b(n,k) = 2^n; 當k = n 時,b(n,k)=2^n - 1.

於是很容易得到bounding function table:

再來填下面那部分的,以b(4,3)為例,寫出所有符合的排列組合再進行配對處理,比較其與b(3,3)和b(3,2)的關係

於是可以得

歸納到一般情況,則有以下理論

得出以下公式

這個式子顯然是多項式的,最高次冪是 k-1。

所以我們得到結論:如果突破點存在(有限的正整數),生長函式m(n) 是多項式的。

2.vc界

上面得到了m(n)的上界多項式,現在來對之前求壞事情概率的不等式做乙個替換:

通過將無窮大的eout 替換為驗證集(verification set) 的ein',於是得到vc bound函式:

uml 關聯 依賴 聚集 一般化

多型 乙個名稱,多種形式。基於整合的多型。呼叫方法時,根據所給物件的不同選擇不同的處理方式。執行時繫結 關聯 當乙個物件對另乙個物件的引用去使用另乙個物件的服務或操作時,兩個物件之間就產生了關聯。聚合 關聯關係的一種,乙個物件成為另乙個物件的組成部分,兩個物件間存在 has a 關係乙個物件作為另乙...

文字預處理一般化流程

文字預處理一般包括以下幾個流程 分詞 主要是中文分詞,英文分詞較簡單 去除停用詞 中英文停用詞表 詞幹提取 詞性轉換 針對英文,英文還有大小寫轉換的問題 詞性標註 文字向量化 詞袋模型 tf idf 分布式詞向量表示 以下是python實現的文字預處理的主要流程 import numpy as np...

機器學習任務的一般步驟

1.確定特徵 選取合適的資料和特徵可能是最重要的步驟,也包括資料的預處理或清洗,通常可以稱之為特徵工程。2.確定模型 確定目標函式及決策邊界的形狀。可選擇多個模型進行比較。3.模型訓練 根據訓練資料估計模型引數。4.模型評估 這裡要區分兩個概念 模型選擇 估計不同模型的效能,選出最好的模型。通常在校...