0機器學習概述
什麼是機器學習?機器學習的分類:兩種分類方式。
機器學習的一般流程
模型訓練中的交叉驗證:將資料分為幾份,每份第一次訓練做訓練集,第二次做了測試集
機器學習的評價:混淆矩陣 auc roc
一 線性回歸
θ解析解的求解過程,要求自己推導
目標函式,過擬合,正則式 模型效果(mse/rmse/r平方)
梯度下降,由於解析解不是很好求出,利用梯度下降來減小損失函式 有三種梯度下降方式
二 邏輯回歸和softmax回歸
邏輯回歸中θ的梯度下降求解
邏輯回歸中的損失函式求解
softmax中θ的梯度下降求解
三 決策樹
決策樹這裡內容很多,第乙個老師是整合學習講解的很深,第二個老師是整合學習講解的很廣,決策樹將的也不錯,第二個老師有四個ppt,還自己找了乙個陳天齊的ppt,xgboost的創始人
①決策樹
四個部分 資訊熵 決策樹 決策樹優化 剪枝
資訊熵:資訊的不確定性 等於資訊乘以概率,注意資訊的公式 和概率成反比
條件熵:y/x = x,y-x.在x發聲前提下,y帶來的熵
決策樹的構建:重點是決策樹的構建、關鍵步驟是**屬性,目標是各個**子集盡可能純。屬性(離散值,連續值)
純度衡量:gini係數、熵、錯誤率——有了純度以後,可以計算資訊增益度 gain = h(d)-h(d/a),和前面的條件熵區分
決策樹停止條件
決策樹的演算法評估 這裡面有個例子,詳細的做了一次推導,可以知道這些名詞如何執行的
三種決策樹:id3 id4.5 cart
決策樹優化:剪枝、k交叉驗證、隨機森林
②整合學習
bagging方法: 待選特徵---**特徵 隨機森林 ,與bagging的不同,是待選特徵---隨機抽取待選特徵----**特徵 extra tree比前兩者更誇張 待選特徵----隨機抽取乙個特徵作為**特徵
boosting:提公升演算法 樣本加權 gbdt 利用殘差來計算 變種 是xgboosts 和前兩種不一樣的還有一種叫做adaboost
四 k-means
這塊數學推導比較少,劉老師講解的是k-means那裡要掌握,後面的層次聚類。密度聚類什麼可以了解
聚類的關鍵是樣本之間的相似度,也叫作距離
距離公式1:曼哈頓距離、歐式距離、切比雪夫距離
距離公式2:余弦相似度
距離公式3:jaccard pearson
①k-means演算法:目標函式為歐幾里得距離--求導數----更新公式
②二分k-means演算法
③k-means++演算法:初始點選擇是選了乙個中心點以後,算距離,選出第二個中心點
④k-means||演算法 相比上次,每次獲取k個樣本
⑤canopy
⑥ mini-batch
衡量指標:混淆矩陣 、均一性、完整性、v-me、輪廓係數、ari、ami
層次聚類:凝聚、** birch
密度聚類:dbscan
譜聚類:
五 svm
這塊聽劉老師講解,挺整體的,雖然數學推導比較多,但基本算乙個整體,把數學推導拿下來,就okl,然後劉老師後面還有一張ppt 我沒看見
對於函式優化問題,對於不同條件,有三種方法:
無約束問題:梯度下降法、牛頓法
等式約束問題:拉格朗日乘子法 這裡有個想象圖,就是乙個梯度圖和一條線的相切,想想一圈圈的,肯定會有乙個圈和那條線相切
不等式約束問題:kkt條件
對偶問題:
感知器模型:
svm模型:
svm推導:引入了smo模型
鬆弛因子 懲罰係數
核函式:針對線性不可分的
機器學習總結
1.常用的機器學習演算法包括 監督學習 半監督學習 無監督學習 增強學習 遺傳演算法 監督學習 就是人為的設定規則,告訴機械人該執行怎麼樣的行動。無監督學習就是不告訴機械人具體的實施辦法,只給定規則,讓機械人過程當中自己學習總結經驗 半監督學習就是結合少標籤的樣本和大量無標籤的樣本進行學習和分類 強...
機器學習總結
傳統的機器學習大致分為 線性回歸 邏輯回歸 決策樹支援向量機 神經網路 等深度學習以神經網路的回歸為基礎,之後會談到的大致有 卷積神經網路 遞迴神經網路 這段時間學習以來,很直觀的體會到,機器學習的本質就是再用計算力和合適的 演算法來 你想要 的東西,比如房價問題,分類問題等。假設你的算力足夠強大,...
機器學習總結
總的來說就是教計算機怎麼認識 自然語言等,現在主要是視覺,和聽覺。1.生物神經網路 一般指生物的大腦神經元,細胞,觸點等組成的網路,用於產生生物的意識,幫助生物進行思考和行動。2.人工神經網路 artificial neural networks 簡稱anns 也叫 connection model...