目前多按照資料標記分類二元分類
多元分類 (離散為分類)
回歸分析 (連續為回歸)
結構化學習 監督
非監督半監督
增強學習 (反饋是關鍵)
batch 填鴨式
online 老師教學
active 主動問題
重點關注**未知資料的能力,即泛化能力的本質hoeffding『s inequality p[∣
ν−μ∣
>ϵ]
≤2ex
p(−2
ϵ2n)
p[|\nu-\mu|>\epsilon]\leq2exp(\epsilon^n)
p[∣ν−μ
∣>ϵ]
≤2ex
p(−2
ϵ2n)
當抽樣樣本n
nn足夠大或者容忍限度ϵ
\epsilon
ϵ寬鬆時,ν=μ
\nu=\mu
ν=μ g=
f\rightarrow g=f
⇒g=f
,但表現好一定具有很好的泛化能力麼?這麼選擇是否有依據?畢竟存在表現佳但泛化能力差的可能。
當資料集足夠大時,ein
e_ei
n與e ou
te_
eout
表現差別大的概率很小p[∣
ein−
eout
∣>ϵ]
≤2me
−2ϵ2
np[|e_-e_|>\epsilon]\leq2me^\epsilon^n}
p[∣ein
−eo
ut∣
>ϵ]
≤2me
−2ϵ2
n.所以每次選擇表現最好的假設其泛化能力越強的可能性高,選擇具有合理性。
從統計學隨機抽樣代表性角度模擬:在大的樣本空間中隨機抽樣,可能存在樣本對總體代表性不佳的可能,但在大數定律下,該事件屬於小概率事件,即選擇到代表性差的樣本可行性低。
所以當n
nn足夠大時,即便進行一次隨機抽樣,我們認為所得樣本可較好的代表總體特徵(小概率事件不可能定理)。
機器學習 第二講
多元線性回歸又稱 multivariate linear regression 現在介紹一種可以表示任意輸入變數的符號 現在定義假設函式的多變數形式,包含以下各種引數 h theta x theta 0 theta 1 x 1 theta 2 x 2 theta 3 x 3 cdots theta ...
機器學習十講 第二講回歸
資料酷客 大講堂 機器學習第二講 用乙個或多個自變數來 因變數的數學方法 在機器學習中,回歸指的是一類 變數為連續值的有監督學習方法 在回歸模型中,需要 的變數叫做因變數,用來解釋因變數變化的變數叫做自變數。一元線性回歸 多元線性回歸 可能遇到的問題 多重共線性 最小二乘的引數估計為 widehat...
機器學習與資料探勘
機器學習的科學成分更重一些 資料探勘的技術成分更重一些 資料分析的角度 資料探勘並沒有機器學習探索人的學習機制這一科學發現任務 資料探勘中的資料分析是針對海量資料進行的 是一門多領域交叉學科,涉及概率論 統計學 畢竟輪 凸分析 演算法複雜度理論等多門學科,專門研究計算機是怎樣模擬或實現人類的學習行為...