機器學習學習指南

2021-09-25 07:53:56 字數 1428 閱讀 8736

統計學習三要素:模型、策略、演算法

模型分為概率模型(由條件概率表示的模型)和非概率模型(決策函式)

策略包括1、損失函式和風險函式;2、經驗風險最小化與結構風險最小化

演算法:根據相應的策略求解最優解,即求解最優化問題。

生成模型與判別模型

分類、回歸、標註問題

演算法原理

優點:精度高、對異常值不敏感、無資料輸入假定

缺點:計算複雜度高、空間複雜度高

無法給出任何資料的基礎結構資訊,因此我們也無法知曉平均例項樣本和典型事例樣本具有什麼特徵。

knn演算法是分類資料最簡單最有效的演算法。

缺點:可能會產生過度匹配問題。

建立分支的偽**函式createbranch()如下所示:

if資料集中的每個子項是否屬於同一分類

return

類的標籤;

else

尋找劃分資料集的最好特徵

劃分資料集

建立分支節點

for每個劃分的子集

呼叫函式createbranch並增加返回結果到分支節點中

return 分支節點

如何選取關鍵性特徵劃分資料?

採用資訊增益進行判斷,在劃分資料集之前之後資訊發生的變化成為資訊增益,獲得資訊增益最高的特徵就是最好的選擇。

資訊增益為總的熵減去某個分類標準對應的熵。

如果資料集已經處理了所有屬性,但是分類標籤依然不唯一,則常常採用多數表決的方法決定該葉子節點的分類。

logistic回歸優點:

實現簡單;

分類時計算量非常小,速度很快,儲存資源低;

缺點:容易欠擬合,一般準確度不太高

只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分;

優點:在資料較少的情況下仍然有效,可以處理多類別問題。

缺點:對於輸入資料的準備方式較為敏感。

樸素貝葉斯是貝葉斯決策理論的一部分,而貝葉斯決策理論的核心思想:選擇高概率對應的類別。即:

如果p1(x,y) > p2(x,y),那麼類別為1.

如果p2(x,y) > p1(x,y),那麼類別為2.

logistic回歸

優點:計算代價不高,易於理解和實現。

缺點:容易欠擬合,分類精度可能不高。

核心思想:

通過改變訓練樣本的權重,學習多個分類器,並將它們進行線性組合,以提高分類的效能。(尋找弱學習演算法比強學習演算法容易得多)

代表性演算法:

adaboost演算法

核心問題:

1、每一輪如何改變訓練資料的權值或者概率分布

2、如何組合弱分類器

常用的舉例度量方法:

機器學習面試問題及答題思路:

機器學習學習指南

統計學習三要素 模型 策略 演算法 模型分為概率模型 由條件概率表示的模型 和非概率模型 決策函式 策略包括1 損失函式和風險函式 2 經驗風險最小化與結構風險最小化 演算法 根據相應的策略求解最優解,即求解最優化問題。生成模型與判別模型 分類 回歸 標註問題 演算法原理 優點 精度高 對異常值不敏...

深度學習學習指南

什麼是深度學習?總的來說,深度學習包括建立和訓練乙個大型的人工神經網路,該神經網路在輸入和輸出之間具有許多隱藏層。正是因為這些隱藏層,我們才稱呼這些神經網路為 深度 至少具有三層隱藏層才能叫深度神經網路,但現有的一些神經網路已具有上百層。神經網路是乙個複雜的統計模型,它通過計算機來對資訊進行乙個非常...

Linux 學習指南

第乙個話題,嵌入式學習的路徑有哪些.這是乙個初學者常問的問題,也是初學者問嵌入式該如何入門的根源.我感覺有兩個方面,偏硬和偏軟.我不認為嵌入式開發軟體佔絕對比重,相反,軟硬體都懂,才是嵌入式高手所應該追求的,也是高手的必由之路.硬體道路 第一步 pcb設計,一般為開發板的電路裁減和擴充,由開發板原理...