機器學習與資料探勘 第二講 機器學習分類與可能性

2021-09-11 17:53:10 字數 1206 閱讀 7494

目前多按照資料標記分類

二元分類

多元分類 (離散為分類)

回歸分析 (連續為回歸)

結構化學習 監督

非監督半監督

增強學習 (反饋是關鍵)

batch 填鴨式

online 老師教學

active 主動問題

重點關注**未知資料的能力,即泛化能力的本質

hoeffding『s inequality p[∣

ν−μ∣

>ϵ]

≤2ex

p(−2

ϵ2n)

p[|\nu-\mu|>\epsilon]\leq2exp(\epsilon^n)

p[∣ν−μ

∣>ϵ]

≤2ex

p(−2

ϵ2n)

當抽樣樣本n

nn足夠大或者容忍限度ϵ

\epsilon

ϵ寬鬆時,ν=μ

\nu=\mu

ν=μ g=

f\rightarrow g=f

⇒g=f

,但表現好一定具有很好的泛化能力麼?這麼選擇是否有依據?畢竟存在表現佳但泛化能力差的可能。

當資料集足夠大時,ein

e_ei

n​與e ou

te_

eout

​表現差別大的概率很小p[∣

ein−

eout

∣>ϵ]

≤2me

−2ϵ2

np[|e_-e_|>\epsilon]\leq2me^\epsilon^n}

p[∣ein

​−eo

ut​∣

>ϵ]

≤2me

−2ϵ2

n.所以每次選擇表現最好的假設其泛化能力越強的可能性高,選擇具有合理性。

從統計學隨機抽樣代表性角度模擬:

在大的樣本空間中隨機抽樣,可能存在樣本對總體代表性不佳的可能,但在大數定律下,該事件屬於小概率事件,即選擇到代表性差的樣本可行性低。

所以當n

nn足夠大時,即便進行一次隨機抽樣,我們認為所得樣本可較好的代表總體特徵(小概率事件不可能定理)。

機器學習 第二講

多元線性回歸又稱 multivariate linear regression 現在介紹一種可以表示任意輸入變數的符號 現在定義假設函式的多變數形式,包含以下各種引數 h theta x theta 0 theta 1 x 1 theta 2 x 2 theta 3 x 3 cdots theta ...

機器學習十講 第二講回歸

資料酷客 大講堂 機器學習第二講 用乙個或多個自變數來 因變數的數學方法 在機器學習中,回歸指的是一類 變數為連續值的有監督學習方法 在回歸模型中,需要 的變數叫做因變數,用來解釋因變數變化的變數叫做自變數。一元線性回歸 多元線性回歸 可能遇到的問題 多重共線性 最小二乘的引數估計為 widehat...

機器學習與資料探勘

機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...