201116西瓜書機器學習系列 10 降維

2022-02-24 08:28:10 字數 1259 閱讀 4790

先講乙個【引子:k-nearst labor】,然後講【降維方法】,有【線性和非線性兩種】,然後是度量學習

降維方法主要是【線性和非線性兩種】,線性的裡面有我們熟知的【主成分分析pca】

k近鄰學習的原理就是判斷乙個點的正負的時候,【找離他最近的點的正負】即可,【k=3就是最近的3個樣本】

比如從1000維降到100維,原理就是【乘乙個w矩陣】,所以問題的核心就是【尋找合適的w】

比如二維降到一維,我們需要【畫一條直線盡可能保留原始資訊】,這條直線需滿足【最近重構性】和【最大可分性】

【最近重構性】:樣本點【到這個直線的距離足夠近】;【最大可分性】:樣本點【在這個直線的投影盡量分散】

先簡單abc【勾股定理】,想要【a^2足夠大就是讓b^2足夠小】,使用【拉格朗日乘子法】,就是【求特徵向量相加最大的值】

pumpkinbook【西瓜書裡所有重點公式的推導和解析】:用乙個【低維度稠密向量表示乙個物件】,廣泛應用於推薦、廣告、搜尋等領域【(萬物皆embedding)】

【沒有系統的看書】,【找到的資料並不好】,所以【可以系統的看書,多看幾本】

201116西瓜書機器學習系列 11 特徵選擇

特徵選擇的 步驟 特徵選擇的 方法 資訊增益越大,特徵越重要 relief原理 能區分開目標的特徵挑出來,區分不開目標的特徵給它去掉 l1正則化使得w變的 稀疏 l2正則化 使得w變的比較小 l1正則化交點常在座標軸上 這樣 某個特徵值就會為0 表示這個特徵沒影響,而 l2正則化的交點常不在座標軸上...

201116西瓜書機器學習系列 9 聚類

聚類的效能度量主要分為 外部指標 和 內部指標 聚類的基本想是 簇內相似度高,簇外相似度低 聚類距離計算分為 有序屬性 無序屬性 混合屬性 有序和無序混合 a assign 計算每個點到中心點的距離 根據距離分配類別 b move 根據a步驟中分配的類別,重新計算中心點 k均值聚類這個過程和em演算...

西瓜書 機器學習《一》

泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...