《機器學習》(周志華)筆記之降維(一)

2021-08-14 19:09:42 字數 862 閱讀 2571

西瓜書第十章降維,以knn開篇,旨在尋找樣本點的「近鄰」,但當維度過高且樣本稀疏時,一種自然地解決思路就是「降維」。人們觀測到的資料樣本雖是高維的,但與學習任務緊密相關的也許僅是乙個低維分布,即高維空間中的乙個低維嵌入

knn:     1、不同的k      2、不同的距離計算方式       會導致分類結果有顯著地不同

但其泛化錯誤率不超過貝葉斯最優分類器的錯誤率的兩倍。簡單的模型也許會有更好的效果

線性降維:基於線性變換進行降維的方法,滿足:

mds(multiple dimentional scaling多維縮放):要求原始空間中樣本之間的距離得以保持。

pca(principal component analysis主成分分析)

同時滿足:最近重構性:樣本點到這個超平面的距離都很近

最大可分性:樣本點在這個超平面上的投影盡可能分開

捨棄部分特徵值得特徵向量優點:1、捨棄後使樣本取樣密度增大,這是降維的重要動機

2、當資料受到雜訊影響時,最小的特徵值對應的特徵向量往往與雜訊有關,將其捨棄能在一定程度上起到去燥的效果。

《機器學習修煉心法》鄔俊

機器學習筆記十一之降維

我們可以先令?1,然後進行主要成分分析,獲得?和?然後計算比例是否小於 1 如果不是的話再令?2,如此類推,直到找到可以使得比例小於 1 的最小?值 原因 是各個特徵之間通常情況存在某種相關性 還有更好的方式來選擇k,通過奇異值分解得到 u,s,v 三個引數,5 重建的壓縮表示 在那裡你可能需要把 ...

機器學習之降維

降維的意義 克服維數災難,獲取本質特徵,節省儲存空間,去除無用雜訊,實現資料視覺化 資料壓縮 視覺化資料 主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...

周志華機器學習筆記(一)

新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習 共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝!根據上圖我們可以用乙個三維空間來了解以下幾個基本術語。屬性與屬性值 屬性反映事件或物件在某方面的表現或性質的事項,在此圖表示為軸...