統計學習三要素:模型、策略、演算法
模型分為概率模型(由條件概率表示的模型)和非概率模型(決策函式)
策略包括1、損失函式和風險函式;2、經驗風險最小化與結構風險最小化
演算法:根據相應的策略求解最優解,即求解最優化問題。
生成模型與判別模型
分類、回歸、標註問題
演算法原理
優點:精度高、對異常值不敏感、無資料輸入假定
缺點:計算複雜度高、空間複雜度高
無法給出任何資料的基礎結構資訊,因此我們也無法知曉平均例項樣本和典型事例樣本具有什麼特徵。
knn演算法是分類資料最簡單最有效的演算法。
缺點:可能會產生過度匹配問題。
建立分支的偽**函式createbranch()如下所示:如何選取關鍵性特徵劃分資料?if資料集中的每個子項是否屬於同一分類
return
類的標籤;
else
尋找劃分資料集的最好特徵
劃分資料集
建立分支節點
for每個劃分的子集
呼叫函式createbranch並增加返回結果到分支節點中
return 分支節點
採用資訊增益進行判斷,在劃分資料集之前之後資訊發生的變化成為資訊增益,獲得資訊增益最高的特徵就是最好的選擇。
資訊增益為總的熵減去某個分類標準對應的熵。
如果資料集已經處理了所有屬性,但是分類標籤依然不唯一,則常常採用多數表決的方法決定該葉子節點的分類。
logistic回歸優點:
實現簡單;
分類時計算量非常小,速度很快,儲存資源低;
缺點:容易欠擬合,一般準確度不太高
只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分;
優點:在資料較少的情況下仍然有效,可以處理多類別問題。
缺點:對於輸入資料的準備方式較為敏感。
樸素貝葉斯是貝葉斯決策理論的一部分,而貝葉斯決策理論的核心思想:選擇高概率對應的類別。即:
如果p1(x,y) > p2(x,y),那麼類別為1.
如果p2(x,y) > p1(x,y),那麼類別為2.
logistic回歸
優點:計算代價不高,易於理解和實現。
缺點:容易欠擬合,分類精度可能不高。
核心思想:
通過改變訓練樣本的權重,學習多個分類器,並將它們進行線性組合,以提高分類的效能。(尋找弱學習演算法比強學習演算法容易得多)
代表性演算法:
adaboost演算法
核心問題:
1、每一輪如何改變訓練資料的權值或者概率分布
2、如何組合弱分類器
常用的舉例度量方法:
機器學習面試問題及答題思路:
機器學習學習指南
統計學習三要素 模型 策略 演算法 模型分為概率模型 由條件概率表示的模型 和非概率模型 決策函式 策略包括1 損失函式和風險函式 2 經驗風險最小化與結構風險最小化 演算法 根據相應的策略求解最優解,即求解最優化問題。生成模型與判別模型 分類 回歸 標註問題 演算法原理 優點 精度高 對異常值不敏...
深度學習學習指南
什麼是深度學習?總的來說,深度學習包括建立和訓練乙個大型的人工神經網路,該神經網路在輸入和輸出之間具有許多隱藏層。正是因為這些隱藏層,我們才稱呼這些神經網路為 深度 至少具有三層隱藏層才能叫深度神經網路,但現有的一些神經網路已具有上百層。神經網路是乙個複雜的統計模型,它通過計算機來對資訊進行乙個非常...
Linux 學習指南
第乙個話題,嵌入式學習的路徑有哪些.這是乙個初學者常問的問題,也是初學者問嵌入式該如何入門的根源.我感覺有兩個方面,偏硬和偏軟.我不認為嵌入式開發軟體佔絕對比重,相反,軟硬體都懂,才是嵌入式高手所應該追求的,也是高手的必由之路.硬體道路 第一步 pcb設計,一般為開發板的電路裁減和擴充,由開發板原理...