1.判斷與名稱解釋題
a1.1 資料探勘:在較大資料集上通過某些方式發現模型的乙個過程
1.2 機器學習:研究如何通過計算手段,利用經驗提公升系統的效能
1.3 假設空間:對於資料集a,其data對應的特徵為乙個向量,此向量所在的空間稱為假設空間
1.4 奧卡姆剃刀:若有多個假設與觀測一致,則選擇最簡單的那個
1.5 沒有免費的午餐:演算法的期望效能與演算法本身無關
1.6 偏差方差說明了什麼:偏差:學習演算法與期望**的偏離程度,學習演算法本身的擬合能力
方差:同樣大小訓練集的變動導致的學習效能的變化
偏差越小方差越大,方差越小偏差越大
1.7 誤差分歧分解說明了什麼:個體學習器準確性越高,多樣性越大,效果就越好
1.8 機器學習的型別:多分類,二分類,回歸,聚類,監督學習,半監督學習,無監督學習
1.9 統計學習:基於統計學泛函分析的機器學習架構
1.10 深度學習:深層神經網路,有多個神經元和多個隱藏層
b1.11 過擬合:過於學習訓練樣本中的特點,導致泛化效能下降
1.12 欠擬合:對訓練樣本中的一般性質尚未學好
1.13 經驗誤差:在訓練集上的誤差
1.14 泛化誤差:在新樣本上的誤差
1.15 留出法:將資料集拆分為兩個互斥集合,乙個作為訓練集,乙個作為測試集,用於估計訓練誤差與泛化誤差
1.16 自助法:使用放回取樣法,取樣n次,取原資料集/取樣資料集 作為測試集, 取樣資料集作為訓練集
1.18 查準率:p = tp / (tp + fp)
1.19 查全率:r = tp / (tp + fn)
1.20 f_1度量:2×p×r / (p+r)
1.21 roc曲線:通過改變截斷點從而得到tpr(y)和fpr(x) tpr = tp / (tp + fn),fpr = fp / (tn + fp)
1.22 auc面積:roc曲線所對應的面積
1.23 假設檢驗:利用假設檢驗獲取兩個不同學習器的效能,假設指的是對學習器泛化錯誤率分布的某種判斷或猜想
1.24 資訊熵:度量樣本集合程度的指標
1.25 gini指數:資料集的純度可用基尼值去度量,gini係數越小,資料集純度越高選擇劃分後,基尼係數最小的那個特徵作為劃分特徵
1.26 bayes公式:
1.27 資訊增益:資訊增益越大,使用屬性a進行的劃分純度越高
1.28 剪枝:決策樹演算法對於過擬合的解決方法
2.1 線性模型
2.1.1 線性模型的優化目標:學習乙個線性模型以盡可能準確的**實值輸出標記
2.1.2 線性模型的求解方案:最小二乘法
2.1.3 logistic回歸的基本原理: 利用對數啟用函式替代單位階躍函式,解決單位階躍函式不連續,不處處可導的問題
2.1.4 線性判別分析的基本原理:預使得同類樣例的投影點盡可能接近,可以讓同類投影點的協方差盡可能小
預使得異類樣例投影點盡可能遠離,可以讓類中心距離盡可能大
2.1.5 ecoc多分類的基本原理:對n個類別進行m次劃分,取訓練m個分類器,對於乙個資料使用這m個分類器,從而得到乙個m長的ecoc碼,對n個類也能得到n個m長的ecoc碼, 找距離最小的碼所對應的類別作為資料的類別
2.2 決策樹
2.2.1 如何根據資訊增益原則劃分屬性生成決策樹:找資訊增益最大的屬性劃分屬性生成卷冊書
資訊增益其實就是資訊熵的下降程度
資訊增益 = 資訊熵 - 劃分之後的資訊熵按樣本量加權平均
2.2.2 剪枝處理的型別和基本方法:預剪枝,後剪枝
預剪枝:在使用資訊增益進行劃分的時候,判斷劃分前後驗證集精度,以驗證集精度是否增加來決定是否劃分
後剪枝:後剪枝從後往前遍歷每個非葉節點,判斷去掉此節點驗證集進度是否上公升,若上公升則去掉此非葉節點
2.2.3 連續值和缺失值的處理:
連續值:將樣本中的此屬性排序 取t = (ai + ai+1) / 2為閾值,一共有n-1個閾值, 遍歷所有的閾值,找到資訊增益最大的那個作為截斷點,使用截斷點將連續值離散的分為兩類
缺失值:劃分屬性時若遇到缺失值那麼資訊增益為 無缺失值樣本所佔的比例 × 在無缺失值樣本上的資訊增益
若資料在此節點有缺失值,那麼把此資料按乙個概率劃入所有的子節點,此概率為p(k,v)
p(k,v)為 未缺失值中此特徵為v且為第k類的概率
2.3 神經網路
2.3.2 誤差傳播演算法的原理和步驟:
原理基於梯度下降策略,以目標負梯度方向對引數進行調整
步驟1.在(0,1)範圍內隨機初始化權重和閾值
2.遍歷每乙個樣本,計算器在每個神經元上的權重和閾值的梯度
3.利用梯度和學習率更新權重
4.重複上述操作直到達到停止條件
2.3.3 跳出區域性最優的常用策略
1.取多個初值不同的神經網路進行訓練,取效果最好的那個
2.使用模擬退火策略
3.使用隨機梯度下降
2.4 支援向量機
2.4.1 間隔: 2/ || w||
2.4.2 支援向量:w*x + b
2.4.3 線性可分與不可分:樣本可被乙個超平面分開和樣本不可通過乙個超平面分開
2.4.4 核函式:乙個非線性對映,將資料從乙個線性不可分的空間對映到乙個線性可分的空間
2.4.5 軟間隔和硬間隔:要求所有樣本都劃分正確稱為硬間隔,允許支援向量機在一些樣本上劃分錯誤稱為硬間隔
2.4.6 支援向量機分類的優化目標與基本求解方案:
優化目標:0.5*||w||2 + c*σloss(xi,yi)
基本求解方案:
1.通過拉格朗日乘子法得到對偶問題
2.利用最優化演算法求解對偶問題
2.4.7 支援向量回歸的基本原理:以f(x)為中心構建了乙個寬度為2e的間隔帶,若訓練樣本落入間隔帶中則認為被**準確
2.5貝葉斯分類器
2.5.1 樸素貝葉斯分類器的基本原理:假設資料中的所有特徵相互獨立,則根據貝葉斯公式有p(c|x) = p(c)π p(xi |c)
2.5.2 樸素貝葉斯的分類規則 argmaxp(c)π p(xi |c)
2.5.3 維數過多導致概率趨於0:使用log將連乘變為累加
2.5.3 em演算法的基本原理:
1.根據模型引數和訓練樣本估計預設值,使得準確率盡可能高
2.將估計的預設值作為預設值,更新模型引數
3.重複上述步驟已達到精度要求
4.原理是最大化模型關於預設值的邊際似然 以估計預設值
2.6 整合學習
2.6.1 基本原則:好而不同
好:個體學習器準確率盡可能高
不同:各學習器關聯性低
2.6.2 整合學習型別:
1.boosting
先訓練出乙個學習器,然後基於前學習器的錯誤訓練樣本對訓練樣本的分布進行調整,使得後續學習器更加關注之前學習器**錯誤的訓練樣本
最終為所有學習器的加權結合
2.bagging
基於自助取樣法,取樣出t個含有m個訓練樣本的取樣集,然後基於每個取樣集訓練出乙個基學習器,再將這些學習器進行結 ?/
其對分類任務使用簡單投票法,對回歸任務使用簡單平均法
3.隨機森林
在以決策樹為基學習器構建bagging整合的基礎上,進一步在決策樹的訓練過程中引入隨機屬性選擇,在rf中,對及決策樹的每乙個結點,先從該結點的屬性集合中隨機選擇乙個包含k個屬性的子集,然後從這個子集中學則乙個最優的屬性用於劃分,推薦k=log2d
2.7 聚類:
2.7.1.學習方法分類
監督學習:當有大量標記過的樣本資料時採用
半監督學習:當有少量標記過的樣本資料和大量未標記的樣本資料時採用
主要思路:
1.利用已標記的樣本,得到模型
2.利用模型估計未標記的樣本
3.利用**值重新訓練模型
4.重複2,3步直到模型達到要求
無監督學習:當樣本資料沒有標記時採
2.7.2:k-means的基本原理
1.隨機選取k個聚類中心
2.每個資料找離自己距離最短的聚類中心,進行分類
3.計算每個類別的中心點,將他們作為真正的中心點
4.重複2,3步直到均方誤差收斂
5.重複1-4步多次,選取均方誤差最小的作為結果
機器學習複習 Apriori
apriori apriori 是關聯分析中比較早的一種方法,主要用來挖掘那些頻繁項集合。其思想是 1.如果乙個專案集合不是頻繁集合,那麼任何包含它的專案集合也一定不是頻繁集合 2.如果乙個專案集合是頻繁集合,那麼它的任何非空子集也是頻繁集合 aprioir 需要掃瞄專案表多遍,從乙個專案開始掃瞄,...
機器學習lr複習點
lr主要推導 損失函式 為何不用最小二乘法 是否要用最小二乘法取決於在所有未知數中的殘差是否為線性 最大似然 將概率密度估計問題轉化為引數估計問題,極大似然估計就是一種引數估計方法 隨機梯度下降 批量梯度下降是所有的 是在權值更新前對所有樣例彙總誤差,而隨機梯度下降的權值是通過考查某個訓練樣例來更新...
《機器學習》總複習(上)
1.1從兩個問題談起 1.相關概念 1 機器學習 是人工智慧的另一部分,也是核心技術。其利用經驗 建立統計模型 概率模型,去解決問題。是對某個實際問題建立計算模型,並利用已知的經驗來提公升模型效果的一類方法。2 模式識別 用計算的方法根據樣本的特徵將樣本劃分到一定的類別中去。2.相關流程 1 乙個標...