基礎知識
需要準備知識:
第一層:通過演算法學習了解基本原理
第二層:數學方面的推導
第三層:會用語言或者工具包解決問題,掌握一門語言,實現演算法原型
第四層:會優化演算法
綱要:機器學習的幾個基本概念
機器學習的實質:在輸入空間到輸出空間中的各種假設形成的假設空間中,去搜尋乙個假設,這個假設對當前資料擬合情況最好
機器學習方法的三要素
經驗風險與結構風險
目標:了解和機器學習相關的概念
了解機器學習的實質
了解常見的損失函式
了解經驗風險與結構風險
機器學習方法流程:
以有監督學習為例:
輸入資料raw data--》特徵工程features--》模型訓練models--》模型部署deploy in production--》模型應用 predictions
輸入空間(input space):將輸入的所有可能取值的集合稱作輸入空間,空間來自線性代數的個裡面
輸出空間(output space):將輸出的所有可能取值的集合稱作輸出空間
例如**父子身高,通過父親身高,**兒子身高
父親身高的所有可能的輸入值的集合叫輸入空間,可能是0到無窮大,但結合實際情況沒有那麼大
兒子身高所有可能輸出的集合叫輸出空間
生存率資料集中輸入空間是多維的,不是一維的。輸出空間只有生存結果,0或1
特徵向量feature vector:由多個特徵組成的集合,稱作特徵向量
特徵空間 feature space:將特徵向量存在的空間稱作特徵空間
例如父親身高165,那麼對這個例項來說,特徵就是165,特徵向量是一維的,就是165。
假設空間:
假設空間hypothesis space:由輸入空間到輸出空間的對映的集合,稱作假設空間。
監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型,模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間。假設空間的確定意味著學習範圍的確定---李航《統計學習方法》
假設空間指的是問題所有假設組成的空間,我們可以把學習過程看作是在假設空間中搜尋的過程,搜尋目標是尋找與訓練集「匹配」的假設---周志華《機器學習》
性別有2中,信用度有3種,是否購買有2中結果,所以所有的可能性為12個。但是性別2*3的6個結果中要麼買,要麼不買,12種可能性只會產生6個確定結果。所以我們把這6個抽取出來的結果叫做乙個假設,即hi
一共有幾個假設h呢?如圖2的6次方,通常還會加上乙個全空的假設
列舉出來如下幾個假設,我們會從假設空間的所有假設中選出來乙個與實際情況最接近的模型
三要素:
機器學習方法通常都是由模型、策略和演算法三部分構成:方法=模型+策略+演算法
模型:確定學習範圍,輸入空間到輸出空間的對映關係,學習過程即為從假設空間中搜尋適合當前資料的假設
**取值:回歸regression
發現結構:聚類clustering
發現異常資料:異常檢測anomaly detection
策略:確定學習規則,從假設空間眾多的假設中選擇到最優的模型的學習標準或規則
定義幾個指標用來衡量上述問題:
對數損失函式logarithmic lf或對數似然損失函式log-likehood loss function:對數函式具有單調性,在求最優化問題時,結果與原始目標一致。可將乘法轉化為加法,簡化計算
指數損失函式 exponential lf:單調性、非負性的優良性質,是的越接近正確結果誤差越小
折葉損失函式(hinge lf):也稱鉸鏈損失,對於判定邊界附近的點的懲罰力度較高,常見於svm
適用場景:
風險函式:經驗風險、期望風險、結構風險
樣本比較小的時候,僅關注經驗風險,很容易過擬合,過擬合是指對當前樣本效果非常好,對其他樣本效果非常差。
結構風險structural risk:在經驗風險的基礎上,增加乙個正則化項regularizer或者叫做懲罰項
結構風險與經驗風險:
基本策略
演算法:按規則在範圍內學習,學習模型的具體的計算方法,通常是求解最優化問題
機器學習演算法詳解(一) 基礎知識
本篇針對以下幾個問題進行總結 01.了解機器學習的基本概念,能說清楚幾個和空間相關的概念。從該角度解釋機器學習的實質。02.經驗風險和結構風險有何不同?03.為什麼要引入正則項?和經驗風險 結構風險有何關係?04.說明損失函式的意義。並列出幾個常見的損失函式,說明其異同。並去了解常見的演算法分別選用...
一 機器學習基礎知識
談到人工智慧 深度學習,相信目前 it 網際網路領域的從業者應該都是耳熟能詳的。但是大家都知道,其實人工智慧早已出現為什麼等到本世紀初再一次大火起來呢?人工智慧 深度學習以及機器學習之間的關係到底又是什麼樣的呢?首先,為什麼最近幾年人工智慧概念再次火爆?原因主要有以下幾個方面 接下來回答第二個問題 ...
機器學習基礎知識
machine learning的主要兩個應用方面 人工智慧 資料科學。什麼是人工智慧 artificial intelligence ai是不確定性管理 uncertainty management 的體現 ai what to do when you don t know what to do ...