降維就是 發現資料中非線性與非區域性的關係,而這些關係在原始的特徵空間中是不明顯的。如果我們能夠減少某些資料的維度,我們就可以將其視覺化,因為在二維和三維中的投影可以繪製出來。在乙個具有多維度的資料集上訓練乙個資料模型,通常很多複雜,而且容易發生過擬合。並非所有的特徵都和我們要解決的問題是相關的。如果我們能夠減少維度就可以減少噪音也就是資料中無關緊要的部分。
降維分為兩個部分即特徵選擇和特徵抽取。
特徵選擇是指找到與問題相關的特徵,選擇依據可以基於我們個人的直覺或者我們可以訓練乙個模型讓它找到最佳特徵(深度學習)。特徵抽取是指把資料從高緯度空間轉到低緯度空間之後找到新的特徵。降維的一種方法是主成分分析(pca),pca將原有的變數轉換成一組新的變數,而新的變數是原變數的線性組合,這些新的變數被稱作主成分。pca是一次正交線性變換,將原有的資料轉到新的座標系,這樣投影之後,第乙個主成分的方差最大,第二個成分方差第二,以此類推。方差是用來衡量資料是如何分布的。乙個籃球隊球員身高方差是很小的,但加入一組小學生身高資料後,整個資料集的方差便會很大。
pca第一步是將資料標準化,pca是乙個最大化方差的過程,它將原有的資料投射到某乙個方向以最大化方差。我們畫出乙個小的資料集不同主成分之間的方差,好像只需要乙個成分就可以解釋資料集中所有的方差。但是如果先對資料進行標準化,可以看出其他成分也會對總的方差有一定貢獻。
總的來說,主成分分析將資料集轉化到乙個低維子空間,所以能夠進行視覺化,從而我們可以找到其中隱含關係。主成分就是結合特徵值的特徵向量,它們描述了在初始特徵空間的資料中最大方差的方位,方差衡量了資料到底有多分散。
油管最火十分鐘機器學習數學課 超引數優化
你應該選擇什麼樣的超引數去訓練你的模型?機器學習模型只是乙個公式,由需要學習的引數組成的公式,但是同時也有一些引數是無法通過正常的訓練過程來直接學習的。我們叫做超引數。超引數是在訓練資料之前設立的模型值,這可以是隨機森林,也可以是神經網路隱藏層的個數,或是邏輯回歸的學習率 我們能讓這些引數自己學習得...
課間十分鐘
時間限制 1000 ms 記憶體限制 128 mb 兩人都是數學愛好者,便發明了乙個遊戲。在遊戲開始前,他們先約定乙個正整數n,同時令m 1。遊戲過程中,每個人都可以將m的值擴大2到9中的任意倍數。第乙個使m n的人就是最後的贏家。181818181818和zbt都十分聰明,並且遊戲過程中都使用最佳...
十分鐘的代價
2008年9月15日上午10 00,擁有158年歷史的美國第四大投資銀行 雷曼兄弟公司向法院申請破產保護,訊息轉瞬間通過電視 廣播和網路傳遍地球的各個角落。令人匪夷所思的是,在如此重大的情況下,德國國家發展銀行在十分鐘後,居然按照外匯掉期協議的交易,通過計算機自動付款系統,向雷曼兄弟公司即將凍結的銀...