維度災難:隨著維度(如特徵或自由度)的增多,問題的複雜性(或計算算代價)呈指數級增長的現象。
高維空間的反直覺示例:單位球體積:
一維,二維,三維的 長度/面積/體積 都有公式計算,而高維的計算公式是這樣的:
d維空間半徑為r的球體體積公式:
單位球體積與維度之間的關係圖示:
在高維空間中,球體內部的體積與表面積處的體積相比可以忽略不計,大部分體積都是分布在邊界的:
高維空間中的歐式距離:d維空間樣本x1和x2的歐式距離為:
隨著維數增加,單個維度對距離的影響越來越小,任意樣本間的距離趨於相同:
由於距離在高維空間中不再有效,因此一些基於距離的機器學習模型就會收到影響。
基於距離的機器學習模型:k近鄰(樣本間距離),支援向量機(樣本到決策面距離),k-means(樣本到聚類中心距離),層次聚類(不同簇之間的距離),推薦系統(商品或使用者相似度),資訊檢索(查詢和文件之前的相似度)。
稀疏性與過度擬合:
過度擬合:模型對已知資料擬合較好,新的資料擬合較差。極端例子:訓練集準確率越來越高,而使用測試集測試模型準確率依然維持在0.5左右。
稀疏性:高維空間中樣本變得極度稀疏,容易會造成過度擬合問題。
hughes現象:隨著維度增大,分類器效能不斷提公升直到達到最佳維度,繼續增加維度分類器效能會下降。
高維空間計算複雜度指數增長,因此只能近似求解,得到區域性最優解而非全域性最優解。
舉例——決策樹:選擇切分點對空間進行劃分。每個特徵m個取值,候選劃分數量m^d(維度災難)
舉例——樸素貝葉斯:
應對維度災難:特徵選擇和降維
特徵選擇:選取特徵子集。
降維:使用一定變換,將高維資料轉換為低維資料,pca,流形學習,t-sne等。
正則化:減少泛化誤差而不是訓練誤差
核技巧:
判斷機器學習模型是否存在維度災難問題:
不存在維度災難問題的模型:隨機特徵模型,兩層神經網路,殘差神經網路等
C 1 3講學習總結
重新回顧複習了c 最基礎的語法的理論知識,對c 又有了乙個重新的認識,之前的學習的著重點都在實際的完成,現在發現對這些知識還和不熟悉。比如知道之前繼承這個概念但確實我之前很少用它,還有後面教程的對xml的處理與多執行緒的東西都沒接觸過。通過對那個銀行的類處理對類的理解也更深刻了。提交記錄截圖 任務成...
Mysql實戰45講第4,5 講學習筆記
二.innodb的索引模型 三.常見問題及答案 優點 雜湊表以key value 儲存,這種結構適合等值查詢的場景,比如memached以及其他的nosql 引擎。缺點 做區間查詢,需要全部掃瞄 有序陣列只適用於靜態儲存引擎,比如儲存一些不會修改的資料 優點 有序陣列在 等值查詢和區間查詢的時候表現...
視覺slam14講學習筆記 (第1講)
學習需具備的知識 高等數學 線性代數 概率論 c 語言基礎 linux基礎 指搭載特定感測器的主體,在沒有環境先驗資訊的情況下,於運動過程中建立環境模型,同時估計自己的運動。如果這裡的感測器為相機,則成為視覺slam 解決定位與地圖構建這兩個問題,即需要估計感測器自身的位置還要建立周圍環境模型 當相...