我這個筆記是結合了lecture4/5/6三節課的,開始討論機器學習的可行性:why can learn? 主要是對三節課背後的思想的核心進行總結,並加入一點自己的思考。
如果 \(e_\) 和 \(e_\) 毫無關聯,那麼基於 \(e_\) 找到的hypothesis h
根本就無法適用於 \(e_\) ,換言之,雖然你找到的hypothesis h
在你已知的 \(d_\) 上有良好的學習效果,但是它在未知的 \(d_\) 上的**結果根本就不可行,不可信。【本質原因是 \(d_\) 上的規律和 $ d_ $ 上的規律,可以完全沒有相關性】
如果 $ d_ $ 和 $ d_ $ 是【獨立同分布】的,即他們都是從同乙個資料來源經過不同的取樣過程得到的,那麼它們的潛在規律是相同的,那麼就有可能根據 $ d_ $ 上面找到的hypothesis h
來處理 $ d_ $ 。
但是 $ d_ $ 上面的規律在什麼條件下才是適用於 $ d_ $ 呢?引入 $ e_ $ 和 $ e_ $ 表示某個hypothesis h
在 $ d_ $ 和 $ d_ $上面的誤差,如下:
\[e_(h) = \frac \sum_^ \lvert h(x_n) \neq f(x_n) \rvert \\\
e_(h) = \epsilon_ \lvert h(x) \neq f(x) \rvert
\]問題轉化成:我們想找乙個hypothesis h
,能讓 $ e_ = e_ $
由hoffield-inequailty
:
\(p[\| e_ - e_ \| > \epsilon] \leq 2 exp \lgroup -2 \epsilon ^2 n \rgroup\)
至此,我們的【假設及目標】已經清晰:
bad data的問題:
根據hffield-inequality
,我們推測bad-data
的發生的union-bound
,
\[\begin
\ & \mathbb_}[bad\ \mathcal] \\\
\ & = \mathbb_}[bad\ \mathcal\ for\ h_1\ or\ bad\ \mathcal\ for\ h_2\ or\ ...\ or\ bad\ \mathcal\ for\ h_m]\\\
\ & \leq \mathbb_}[bad\ \mathcal\ for\ h_1] + \mathbb_}[bad\ \mathcal\ for\ h_2]+...+\mathbb_}[bad\ \mathcal\ for\ h_m] \\\
\ & \leq 2exp(-2\epsilon ^2n) + \leq 2exp(-2\epsilon ^2n) + ... + \leq 2exp(-2\epsilon ^2n) \\\
\ & = 2mexp(-2\epsilon ^2n)
\end
\]這是下節要解決的問題。
專案可行性的研究內容
可行性研究是一種系統的投資決策科學分析方法。專案可行性研究是指 在專案投資決策前,通過對專案有關的工程技術 經濟 社會等方面的條件和情況進行調查 研究和分析,對各種可能的技術方案進行比較論證,並對投資專案建成後的經濟效益和社會效益進行 和分析,以考察專案技術上的先進性和通用性 經濟上的合理性和盈利性...
mongodb分庫的可行性操作
1 建立乙個新的mongodb庫 2 把當前的mongodb集合改為比如 log data為log data 201904062230 3 把log data 201904062230備份到新庫中 4 在獲取資料的地方再連線新庫的log data 201904062230集合展示資料 示例如下 wh...
可行性研究報告 之機房收費系統的可行性研究報告
在做乙個專案之前,要對這個專案進行可行性研究,所謂可行性研究主要是指這個專案是否可行,是否值得繼續開發。開發後會帶來哪些好處等等。下面就說一下,可行性研究報告的書寫形式。以機房收費系統為例 機房收費系統 隨著國力越來越強,上網的需求越來越多,而同學們平時上網還要出學校去,很耽誤時間,所以,在機房上網...