機器學習學習指南

統計學習三要素：模型、策略、演算法

模型分為概率模型（由條件概率表示的模型）和非概率模型（決策函式）

策略包括1、損失函式和風險函式；2、經驗風險最小化與結構風險最小化

演算法：根據相應的策略求解最優解，即求解最優化問題。

生成模型與判別模型

分類、回歸、標註問題

演算法原理

優點：精度高、對異常值不敏感、無資料輸入假定

缺點：計算複雜度高、空間複雜度高

無法給出任何資料的基礎結構資訊，因此我們也無法知曉平均例項樣本和典型事例樣本具有什麼特徵。

knn演算法是分類資料最簡單最有效的演算法。

缺點：可能會產生過度匹配問題。

建立分支的偽**函式createbranch()如下所示：
if資料集中的每個子項是否屬於同一分類
return
類的標籤；
else
尋找劃分資料集的最好特徵
劃分資料集
建立分支節點
for每個劃分的子集
呼叫函式createbranch並增加返回結果到分支節點中
return 分支節點

如何選取關鍵性特徵劃分資料？

採用資訊增益進行判斷，在劃分資料集之前之後資訊發生的變化成為資訊增益，獲得資訊增益最高的特徵就是最好的選擇。

資訊增益為總的熵減去某個分類標準對應的熵。

如果資料集已經處理了所有屬性，但是分類標籤依然不唯一，則常常採用多數表決的方法決定該葉子節點的分類。

logistic回歸優點：

實現簡單；

分類時計算量非常小，速度很快，儲存資源低；

缺點：容易欠擬合，一般準確度不太高

只能處理兩分類問題（在此基礎上衍生出來的softmax可以用於多分類），且必須線性可分；

優點：在資料較少的情況下仍然有效，可以處理多類別問題。

缺點：對於輸入資料的準備方式較為敏感。

樸素貝葉斯是貝葉斯決策理論的一部分，而貝葉斯決策理論的核心思想：選擇高概率對應的類別。即：

如果p1(x,y) > p2(x,y),那麼類別為1.

如果p2(x,y) > p1(x,y)，那麼類別為2.

logistic回歸

優點：計算代價不高，易於理解和實現。

缺點：容易欠擬合，分類精度可能不高。

核心思想：

通過改變訓練樣本的權重，學習多個分類器，並將它們進行線性組合，以提高分類的效能。（尋找弱學習演算法比強學習演算法容易得多）

代表性演算法：

adaboost演算法

核心問題：

1、每一輪如何改變訓練資料的權值或者概率分布

2、如何組合弱分類器

常用的舉例度量方法：

機器學習面試問題及答題思路：

機器學習學習指南

統計學習三要素模型策略演算法模型分為概率模型由條件概率表示的模型和非概率模型決策函式策略包括1 損失函式和風險函式 2 經驗風險最小化與結構風險最小化演算法根據相應的策略求解最優解，即求解最優化問題。生成模型與判別模型分類回歸標註問題演算法原理優點精度高對異常值不敏...

深度學習學習指南

什麼是深度學習？總的來說，深度學習包括建立和訓練乙個大型的人工神經網路，該神經網路在輸入和輸出之間具有許多隱藏層。正是因為這些隱藏層，我們才稱呼這些神經網路為深度至少具有三層隱藏層才能叫深度神經網路，但現有的一些神經網路已具有上百層。神經網路是乙個複雜的統計模型，它通過計算機來對資訊進行乙個非常...

Linux 學習指南

第乙個話題,嵌入式學習的路徑有哪些.這是乙個初學者常問的問題,也是初學者問嵌入式該如何入門的根源.我感覺有兩個方面,偏硬和偏軟.我不認為嵌入式開發軟體佔絕對比重,相反,軟硬體都懂,才是嵌入式高手所應該追求的,也是高手的必由之路.硬體道路第一步 pcb設計,一般為開發板的電路裁減和擴充,由開發板原理...

機器學習學習指南

機器學習學習指南

深度學習學習指南

Linux 學習指南

相關推薦