1、什麼是降維?數學知識:特徵值分解
設a是n階方陣,如果有常數λ和n維非零列向量α的關係式 aα = λα 成立,則稱λ為方陣a的特徵值,非零向量α稱為方陣a的對應於特徵值入的特徵向量
降維:將資料的特徵數量從高維轉換到低維
實際中很多資料是高維的,但資料「內在的維度」可能更低
例如:通訊資料原始有7維:入網時間、****、每月話費,每月流量、每月通話時長欠費金額、欠費月數。"內在維度"可能只有3個:使用者忠誠度、消費能力、欠費指數
降維是解決高維資料的維度災難問題的一種手段,能夠作為一種特徵抽取的方法,便於對資料進行視覺化分析。
2、主成分分析pca:基本原理、優化目標和求解方法
在人臉識別和影象壓縮等領域得到了廣泛的應用
方差比例與資料重構:通過確定將為前後方差保留比例選擇降維後的樣本維數l,可預先設定乙個方差比例閾值如90%
從資料重構角度來看,通過矩陣wt從y可以得到重構資料為xwwt,且重構誤差為||x-xwwt||f~2
3、自編碼器:找到資料高效表示的神經網路方法
一種特殊的神經網路,嘗試將輸入複製到輸出,能夠表示非線性變換
編碼器:將輸入x轉換成隱含表示h
解碼器:將隱含表示h轉換成輸出x'
優化目標:使得x'和x盡量接近
當隱含層神經元數量小於輸入層時,可以當做一種降維演算法。
深層自編碼器(對稱的轉換)指數級地降低表示某些函式的計算成本
指數級的減少學習某些函式所需的訓練資料量
一些實驗結果表名,深層自編碼器比淺自編碼器產生更好的壓縮效果。
4、降維常用實踐工具介紹主要使用的是sklearn
5、實踐案例:python降維實踐及在特徵臉、影象重構和文字資料中的應用numpy:求解特徵值和特徵向量
pandas:資料讀取與預處理
matplotlib、seaborn:資料視覺化
sklearn:中文新聞的向量化、t-sne降維
tensorflow:自編碼器的構建與訓練
機器學習 降維
資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...
機器學習 降維
資料壓縮 視覺化 pca principal component analysis 即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...
機器學習降維方法
特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap,embedding。lasso least absolute shrinkage and selection operator,...