機器學習複習

2022-08-11 20:00:14 字數 4104 閱讀 1721

1.判斷與名稱解釋題

a1.1 資料探勘:在較大資料集上通過某些方式發現模型的乙個過程

1.2 機器學習:研究如何通過計算手段,利用經驗提公升系統的效能

1.3 假設空間:對於資料集a,其data對應的特徵為乙個向量,此向量所在的空間稱為假設空間

1.4 奧卡姆剃刀:若有多個假設與觀測一致,則選擇最簡單的那個

1.5 沒有免費的午餐:演算法的期望效能與演算法本身無關

1.6 偏差方差說明了什麼:偏差:學習演算法與期望**的偏離程度,學習演算法本身的擬合能力

方差:同樣大小訓練集的變動導致的學習效能的變化

偏差越小方差越大,方差越小偏差越大

1.7 誤差分歧分解說明了什麼:個體學習器準確性越高,多樣性越大,效果就越好

1.8 機器學習的型別:多分類,二分類,回歸,聚類,監督學習,半監督學習,無監督學習

1.9 統計學習:基於統計學泛函分析的機器學習架構

1.10 深度學習:深層神經網路,有多個神經元和多個隱藏層

b1.11 過擬合:過於學習訓練樣本中的特點,導致泛化效能下降

1.12 欠擬合:對訓練樣本中的一般性質尚未學好

1.13 經驗誤差:在訓練集上的誤差

1.14 泛化誤差:在新樣本上的誤差

1.15 留出法:將資料集拆分為兩個互斥集合,乙個作為訓練集,乙個作為測試集,用於估計訓練誤差與泛化誤差

1.16 自助法:使用放回取樣法,取樣n次,取原資料集/取樣資料集 作為測試集, 取樣資料集作為訓練集

1.18 查準率:p = tp / (tp + fp)

1.19 查全率:r = tp / (tp + fn)

1.20 f_1度量:2×p×r / (p+r)

1.21 roc曲線:通過改變截斷點從而得到tpr(y)和fpr(x)  tpr = tp / (tp + fn),fpr = fp / (tn + fp)

1.22 auc面積:roc曲線所對應的面積

1.23 假設檢驗:利用假設檢驗獲取兩個不同學習器的效能,假設指的是對學習器泛化錯誤率分布的某種判斷或猜想

1.24 資訊熵:度量樣本集合程度的指標

1.25 gini指數:資料集的純度可用基尼值去度量,gini係數越小,資料集純度越高選擇劃分後,基尼係數最小的那個特徵作為劃分特徵

1.26 bayes公式:

1.27 資訊增益:資訊增益越大,使用屬性a進行的劃分純度越高

1.28 剪枝:決策樹演算法對於過擬合的解決方法

2.1 線性模型

2.1.1 線性模型的優化目標:學習乙個線性模型以盡可能準確的**實值輸出標記

2.1.2 線性模型的求解方案:最小二乘法

2.1.3 logistic回歸的基本原理: 利用對數啟用函式替代單位階躍函式,解決單位階躍函式不連續,不處處可導的問題

2.1.4 線性判別分析的基本原理:預使得同類樣例的投影點盡可能接近,可以讓同類投影點的協方差盡可能小

預使得異類樣例投影點盡可能遠離,可以讓類中心距離盡可能大

2.1.5 ecoc多分類的基本原理:對n個類別進行m次劃分,取訓練m個分類器,對於乙個資料使用這m個分類器,從而得到乙個m長的ecoc碼,對n個類也能得到n個m長的ecoc碼, 找距離最小的碼所對應的類別作為資料的類別

2.2 決策樹

2.2.1 如何根據資訊增益原則劃分屬性生成決策樹:找資訊增益最大的屬性劃分屬性生成卷冊書

資訊增益其實就是資訊熵的下降程度

資訊增益 = 資訊熵 - 劃分之後的資訊熵按樣本量加權平均

2.2.2 剪枝處理的型別和基本方法:預剪枝,後剪枝

預剪枝:在使用資訊增益進行劃分的時候,判斷劃分前後驗證集精度,以驗證集精度是否增加來決定是否劃分

後剪枝:後剪枝從後往前遍歷每個非葉節點,判斷去掉此節點驗證集進度是否上公升,若上公升則去掉此非葉節點

2.2.3 連續值和缺失值的處理:

連續值:將樣本中的此屬性排序 取t = (ai + ai+1) / 2為閾值,一共有n-1個閾值, 遍歷所有的閾值,找到資訊增益最大的那個作為截斷點,使用截斷點將連續值離散的分為兩類

缺失值:劃分屬性時若遇到缺失值那麼資訊增益為  無缺失值樣本所佔的比例 × 在無缺失值樣本上的資訊增益

若資料在此節點有缺失值,那麼把此資料按乙個概率劃入所有的子節點,此概率為p(k,v)

p(k,v)為 未缺失值中此特徵為v且為第k類的概率

2.3 神經網路

2.3.2 誤差傳播演算法的原理和步驟:

原理基於梯度下降策略,以目標負梯度方向對引數進行調整

步驟1.在(0,1)範圍內隨機初始化權重和閾值

2.遍歷每乙個樣本,計算器在每個神經元上的權重和閾值的梯度

3.利用梯度和學習率更新權重

4.重複上述操作直到達到停止條件

2.3.3 跳出區域性最優的常用策略

1.取多個初值不同的神經網路進行訓練,取效果最好的那個

2.使用模擬退火策略

3.使用隨機梯度下降

2.4 支援向量機

2.4.1 間隔: 2/ || w||

2.4.2 支援向量:w*x + b

2.4.3 線性可分與不可分:樣本可被乙個超平面分開和樣本不可通過乙個超平面分開

2.4.4 核函式:乙個非線性對映,將資料從乙個線性不可分的空間對映到乙個線性可分的空間

2.4.5 軟間隔和硬間隔:要求所有樣本都劃分正確稱為硬間隔,允許支援向量機在一些樣本上劃分錯誤稱為硬間隔

2.4.6 支援向量機分類的優化目標與基本求解方案:

優化目標:0.5*||w||2 + c*σloss(xi,yi)

基本求解方案:

1.通過拉格朗日乘子法得到對偶問題

2.利用最優化演算法求解對偶問題

2.4.7 支援向量回歸的基本原理:以f(x)為中心構建了乙個寬度為2e的間隔帶,若訓練樣本落入間隔帶中則認為被**準確

2.5貝葉斯分類器

2.5.1 樸素貝葉斯分類器的基本原理:假設資料中的所有特徵相互獨立,則根據貝葉斯公式有p(c|x) = p(c)π p(xi |c)

2.5.2 樸素貝葉斯的分類規則 argmaxp(c)π p(xi |c)

2.5.3 維數過多導致概率趨於0:使用log將連乘變為累加

2.5.3 em演算法的基本原理:

1.根據模型引數和訓練樣本估計預設值,使得準確率盡可能高

2.將估計的預設值作為預設值,更新模型引數

3.重複上述步驟已達到精度要求

4.原理是最大化模型關於預設值的邊際似然 以估計預設值

2.6 整合學習

2.6.1 基本原則:好而不同

好:個體學習器準確率盡可能高

不同:各學習器關聯性低

2.6.2 整合學習型別:

1.boosting

先訓練出乙個學習器,然後基於前學習器的錯誤訓練樣本對訓練樣本的分布進行調整,使得後續學習器更加關注之前學習器**錯誤的訓練樣本

最終為所有學習器的加權結合

2.bagging

基於自助取樣法,取樣出t個含有m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些學習器進行結 ?/

其對分類任務使用簡單投票法,對回歸任務使用簡單平均法

3.隨機森林

在以決策樹為基學習器構建bagging整合的基礎上,進一步在決策樹的訓練過程中引入隨機屬性選擇,在rf中,對及決策樹的每乙個結點,先從該結點的屬性集合中隨機選擇乙個包含k個屬性的子集,然後從這個子集中學則乙個最優的屬性用於劃分,推薦k=log2d

2.7 聚類:

2.7.1.學習方法分類

監督學習:當有大量標記過的樣本資料時採用

半監督學習:當有少量標記過的樣本資料和大量未標記的樣本資料時採用

主要思路:

1.利用已標記的樣本,得到模型

2.利用模型估計未標記的樣本

3.利用**值重新訓練模型

4.重複2,3步直到模型達到要求

無監督學習:當樣本資料沒有標記時採

2.7.2:k-means的基本原理

1.隨機選取k個聚類中心

2.每個資料找離自己距離最短的聚類中心,進行分類

3.計算每個類別的中心點,將他們作為真正的中心點

4.重複2,3步直到均方誤差收斂

5.重複1-4步多次,選取均方誤差最小的作為結果

機器學習複習 Apriori

apriori apriori 是關聯分析中比較早的一種方法,主要用來挖掘那些頻繁項集合。其思想是 1.如果乙個專案集合不是頻繁集合,那麼任何包含它的專案集合也一定不是頻繁集合 2.如果乙個專案集合是頻繁集合,那麼它的任何非空子集也是頻繁集合 aprioir 需要掃瞄專案表多遍,從乙個專案開始掃瞄,...

機器學習lr複習點

lr主要推導 損失函式 為何不用最小二乘法 是否要用最小二乘法取決於在所有未知數中的殘差是否為線性 最大似然 將概率密度估計問題轉化為引數估計問題,極大似然估計就是一種引數估計方法 隨機梯度下降 批量梯度下降是所有的 是在權值更新前對所有樣例彙總誤差,而隨機梯度下降的權值是通過考查某個訓練樣例來更新...

《機器學習》總複習(上)

1.1從兩個問題談起 1.相關概念 1 機器學習 是人工智慧的另一部分,也是核心技術。其利用經驗 建立統計模型 概率模型,去解決問題。是對某個實際問題建立計算模型,並利用已知的經驗來提公升模型效果的一類方法。2 模式識別 用計算的方法根據樣本的特徵將樣本劃分到一定的類別中去。2.相關流程 1 乙個標...