時隔兩年半,再次上我這個csdn賬號。最近正好複習機器學習考試,就把一些基本的機器學習概念在部落格記錄一下,就當複習了。
一些概念:
什麼是機器學習
1.什麼是機器學習?
機器學習就是計算機基於資料建立概率統計模型,並運用模型對資料進行**與分析的一門學科。
2.期望風險、經驗風險與結構風險
期望風險可以看為關於p(x,y)平均意義下的損失,機器學習的目標就是選擇期望風險最小的模型。但事實上p(x,y)我們是不知道的,如果知道的話我們就可以直接通過聯合概率推導出條件概率,也就不需要學習這一過程了。我們雖然不能得到期望風險,但可以基於資料集(訓練集部分)得到經驗風險,經驗風險就是關於資料集的平均損失。即每個樣本真實標籤與**標籤的損失除以資料集樣本數量。由此,模型學習的策略就是希望經驗風險最小。當資料量很大的時候,經驗風險趨近於期望風險。但是當資料量很小的時候,一直優化經驗風險離期望風險可能差距過大,會導致泛化誤差大或者說發生了過擬合。所以通過結構風險來解決這一問題。通過在經驗損失後加乙個正則化項來衡量模型的引數複雜度。這樣改進後的目標函式就可以應對過擬合。
3.生成模型與判別模型
有監督學習中可以將模型分為這麼兩大類,一類是生成模型,一類是判別模型。生成模型是基於資料的聯合概率分布,推導出條件概率分布。直接可以通過概率計算,得到特定輸入x生成y的關係。主要利用的就是條件概率公式:p(y|x)=p(x,y)/p(x)。主要的代表模型就是樸素貝葉斯判別以及隱馬爾科夫。
判別模型則是根據資料直接學習得到乙個決策函式或條件概率分布函式。關心的是對於特定輸入x,應該**什麼樣的輸出y。判別模型包括k鄰近演算法、感知機、決策樹等。
4.最大後驗
最大後驗簡單來說可以看作對於給定x,找到最大的p(y=ck|x),得到相應的ck即為**結果。可以直接由期望風險最小出發,利用全概率公式得到每乙個y的條件概率乘期望風險求和,最終優化目標可以推導到取最大的p(y=ck|x)。
5.核函式
簡單來說就是用核方法將輸入空間對映到特徵空間。核函式代表一種對映。對於一些非線性問題,在輸入空間可能是線性的,但通過核函式對映到特徵空間可以表示為線性的。核函式就是這樣的乙個對映,具體在非線性svm中就有應用。
6.流形學習
將高維資料進行低維嵌入的過程,盡可能保留原有的流形結構。常見的流行學習演算法如lle。
機器學習入門 1 基本概念
很多人剛接觸機器學習或神經網路的時候,被一些名詞給弄糊塗了,什麼人工智慧,機器學習,統計機器學習,神經網路,深度學習等。所以學習機器學習的第一步,是要理清楚這幾者的關係。為此,我利用了乙個圖來顯示出幾者的關係。其中,機器學習是人工智慧領域的乙個分支,也是最能夠體現出智慧型的乙個分支。神經網路是機器學...
深度學習入門基礎概念(1)
自 csdn star先生 作者專欄 1 神經元 neuron 就像形成我們大腦基本元素的神經元一樣,神經元形成神經網路的基本結構。想象一下,當我們得到新資訊時我們該怎麼做。當我們獲取資訊時,我們一般會處理它,然後生成乙個輸出。類似地,在神經網路裡,神經元接收輸入,處理它並產生輸出,而這個輸出被傳送...
機器學習基礎 1 基本概念
基本概念介紹 訓練集 train set 用來進行訓練,也就是產生模型或者演算法的資料集 測試集 test set 用來專門進行測試已經學習好的模型或者演算法的資料集 特徵向量 特徵屬性的集合 使用一組向量來表示 標記 對乙個例項結果的標記 監督學習 訓練集有類別標記 非監督學習 訓練集無類別標記 ...