機器學習總結

0機器學習概述

什麼是機器學習？機器學習的分類：兩種分類方式。

機器學習的一般流程

模型訓練中的交叉驗證：將資料分為幾份，每份第一次訓練做訓練集，第二次做了測試集

機器學習的評價：混淆矩陣 auc roc

一線性回歸

θ解析解的求解過程，要求自己推導

目標函式，過擬合，正則式模型效果（mse/rmse/r平方）

梯度下降，由於解析解不是很好求出，利用梯度下降來減小損失函式有三種梯度下降方式

二邏輯回歸和softmax回歸

邏輯回歸中θ的梯度下降求解

邏輯回歸中的損失函式求解

softmax中θ的梯度下降求解

三決策樹

決策樹這裡內容很多，第乙個老師是整合學習講解的很深，第二個老師是整合學習講解的很廣，決策樹將的也不錯，第二個老師有四個ppt，還自己找了乙個陳天齊的ppt，xgboost的創始人

①決策樹

四個部分資訊熵決策樹決策樹優化剪枝

資訊熵：資訊的不確定性等於資訊乘以概率，注意資訊的公式和概率成反比

條件熵：y/x = x,y-x.在x發聲前提下，y帶來的熵

決策樹的構建：重點是決策樹的構建、關鍵步驟是**屬性，目標是各個**子集盡可能純。屬性（離散值，連續值）

純度衡量：gini係數、熵、錯誤率——有了純度以後，可以計算資訊增益度 gain = h(d)-h(d/a),和前面的條件熵區分

決策樹停止條件

決策樹的演算法評估這裡面有個例子，詳細的做了一次推導，可以知道這些名詞如何執行的

三種決策樹：id3 id4.5 cart

決策樹優化：剪枝、k交叉驗證、隨機森林

②整合學習

bagging方法：待選特徵---**特徵隨機森林，與bagging的不同，是待選特徵---隨機抽取待選特徵----**特徵 extra tree比前兩者更誇張待選特徵----隨機抽取乙個特徵作為**特徵

boosting：提公升演算法樣本加權 gbdt 利用殘差來計算變種是xgboosts 和前兩種不一樣的還有一種叫做adaboost

四 k-means

這塊數學推導比較少，劉老師講解的是k-means那裡要掌握，後面的層次聚類。密度聚類什麼可以了解

聚類的關鍵是樣本之間的相似度，也叫作距離

距離公式1：曼哈頓距離、歐式距離、切比雪夫距離

距離公式2：余弦相似度

距離公式3：jaccard pearson

①k-means演算法：目標函式為歐幾里得距離--求導數----更新公式

②二分k-means演算法

③k-means++演算法：初始點選擇是選了乙個中心點以後，算距離，選出第二個中心點

④k-means||演算法相比上次，每次獲取k個樣本

⑤canopy

⑥ mini-batch

衡量指標：混淆矩陣、均一性、完整性、v-me、輪廓係數、ari、ami

層次聚類：凝聚、** birch

密度聚類：dbscan

譜聚類：

五 svm

這塊聽劉老師講解，挺整體的，雖然數學推導比較多，但基本算乙個整體，把數學推導拿下來，就okl，然後劉老師後面還有一張ppt 我沒看見

對於函式優化問題，對於不同條件，有三種方法：

無約束問題：梯度下降法、牛頓法

等式約束問題：拉格朗日乘子法這裡有個想象圖，就是乙個梯度圖和一條線的相切，想想一圈圈的，肯定會有乙個圈和那條線相切

不等式約束問題：kkt條件

對偶問題：

感知器模型：

svm模型：

svm推導：引入了smo模型

鬆弛因子懲罰係數

核函式：針對線性不可分的

機器學習總結

1.常用的機器學習演算法包括監督學習半監督學習無監督學習增強學習遺傳演算法監督學習就是人為的設定規則，告訴機械人該執行怎麼樣的行動。無監督學習就是不告訴機械人具體的實施辦法，只給定規則，讓機械人過程當中自己學習總結經驗半監督學習就是結合少標籤的樣本和大量無標籤的樣本進行學習和分類強...

機器學習總結

傳統的機器學習大致分為線性回歸邏輯回歸決策樹支援向量機神經網路等深度學習以神經網路的回歸為基礎，之後會談到的大致有卷積神經網路遞迴神經網路這段時間學習以來，很直觀的體會到，機器學習的本質就是再用計算力和合適的演算法來你想要的東西，比如房價問題，分類問題等。假設你的算力足夠強大，...

機器學習總結

總的來說就是教計算機怎麼認識自然語言等，現在主要是視覺，和聽覺。1.生物神經網路一般指生物的大腦神經元，細胞，觸點等組成的網路，用於產生生物的意識，幫助生物進行思考和行動。2.人工神經網路 artificial neural networks 簡稱anns 也叫 connection model...

機器學習總結

機器學習總結

機器學習總結

機器學習總結

相關推薦