201116西瓜書機器學習系列 9 聚類

2022-02-24 08:28:11 字數 1035 閱讀 3009

聚類的效能度量主要分為【外部指標】和【內部指標】

聚類的基本想是:【簇內相似度高,簇外相似度低】

聚類距離計算分為 【有序屬性、無序屬性、混合屬性(有序和無序混合)】

a、assign:【計算每個點到中心點的距離】,根據距離分配類別

b、move:根據a步驟中分配的類別,【重新計算中心點】

k均值聚類這個過程和em演算法非常像,【k均值聚類就是em演算法的乙個例項】

按照一定的規則【將高斯分布混合起來】

e步:根據當前引數【計算每個樣本屬於每個高斯函式的後驗概率】

m步:【更新模型引數】

1)【對異常值十分敏感】

異常值十分敏感處理方法:【刪除】:異常值不是很多的情況下;【重賦值】:排序or自定義;【抽樣】:抽樣大小

201116西瓜書機器學習系列 11 特徵選擇

特徵選擇的 步驟 特徵選擇的 方法 資訊增益越大,特徵越重要 relief原理 能區分開目標的特徵挑出來,區分不開目標的特徵給它去掉 l1正則化使得w變的 稀疏 l2正則化 使得w變的比較小 l1正則化交點常在座標軸上 這樣 某個特徵值就會為0 表示這個特徵沒影響,而 l2正則化的交點常不在座標軸上...

201116西瓜書機器學習系列 10 降維

先講乙個 引子 k nearst labor 然後講 降維方法 有 線性和非線性兩種 然後是度量學習 降維方法主要是 線性和非線性兩種 線性的裡面有我們熟知的 主成分分析pca k近鄰學習的原理就是判斷乙個點的正負的時候,找離他最近的點的正負 即可,k 3就是最近的3個樣本 比如從1000維降到10...

西瓜書 機器學習《一》

泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...