機器學習與資料探勘第二講機器學習分類與可能性

目前多按照資料標記分類

二元分類

多元分類（離散為分類）

回歸分析（連續為回歸）

結構化學習監督

非監督半監督

增強學習（反饋是關鍵）

batch 填鴨式

online 老師教學

active 主動問題

重點關注**未知資料的能力，即泛化能力的本質

hoeffding『s inequality p[∣

ν−μ∣

>ϵ]

≤2ex

p(−2

ϵ2n)

p[|\nu-\mu|>\epsilon]\leq2exp(\epsilon^n)

p[∣ν−μ

∣>ϵ]

≤2ex

p(−2

ϵ2n)

當抽樣樣本n

nn足夠大或者容忍限度ϵ

\epsilon

ϵ寬鬆時，ν=μ

\nu=\mu

ν=μ g=

f\rightarrow g=f

⇒g=f

,但表現好一定具有很好的泛化能力麼？這麼選擇是否有依據？畢竟存在表現佳但泛化能力差的可能。

當資料集足夠大時,ein

e_ei

n與e ou

te_

eout

表現差別大的概率很小p[∣

ein−

eout

∣>ϵ]

≤2me

−2ϵ2

np[|e_-e_|>\epsilon]\leq2me^\epsilon^n}

p[∣ein

−eo

ut∣

>ϵ]

≤2me

−2ϵ2

n.所以每次選擇表現最好的假設其泛化能力越強的可能性高，選擇具有合理性。

從統計學隨機抽樣代表性角度模擬：

在大的樣本空間中隨機抽樣，可能存在樣本對總體代表性不佳的可能，但在大數定律下，該事件屬於小概率事件，即選擇到代表性差的樣本可行性低。

所以當n

nn足夠大時，即便進行一次隨機抽樣，我們認為所得樣本可較好的代表總體特徵（小概率事件不可能定理）。

機器學習第二講

多元線性回歸又稱 multivariate linear regression 現在介紹一種可以表示任意輸入變數的符號現在定義假設函式的多變數形式，包含以下各種引數 h theta x theta 0 theta 1 x 1 theta 2 x 2 theta 3 x 3 cdots theta ...

機器學習十講第二講回歸

資料酷客大講堂機器學習第二講用乙個或多個自變數來因變數的數學方法在機器學習中，回歸指的是一類變數為連續值的有監督學習方法在回歸模型中，需要的變數叫做因變數，用來解釋因變數變化的變數叫做自變數。一元線性回歸多元線性回歸可能遇到的問題多重共線性最小二乘的引數估計為 widehat...

機器學習與資料探勘

機器學習的科學成分更重一些資料探勘的技術成分更重一些資料分析的角度資料探勘並沒有機器學習探索人的學習機制這一科學發現任務資料探勘中的資料分析是針對海量資料進行的是一門多領域交叉學科，涉及概率論統計學畢竟輪凸分析演算法複雜度理論等多門學科，專門研究計算機是怎樣模擬或實現人類的學習行為...

機器學習與資料探勘 第二講 機器學習分類與可能性

機器學習 第二講

機器學習十講 第二講回歸

機器學習與資料探勘

相關推薦

機器學習與資料探勘第二講機器學習分類與可能性

機器學習第二講

機器學習十講第二講回歸