第十章 降維與度量學習(10 1 10 3)

2021-08-07 03:14:58 字數 1100 閱讀 1630

給定測試樣本,基於某種距離度量找出訓練集中與其最靠近的k個訓練樣本,然後根據這k個「鄰居」的資訊來進行**。

緩解維數災難的乙個重要途徑是降維,亦稱「維數約簡」。通過某種數字變換將原始高維屬性空間轉變為乙個「子空間」,在這個子空間中樣本密度大幅提高,距離計算也變得更容易。

主成分分析(pca)是最常用的一種降維方法。對於乙個能夠將所有樣本進行恰當表達的超平面,基於其最近重構性(樣本點到這個超平面的距離都足夠近)主成分分析的優化目標為

基於其最大可分性(樣本點在這個超平面上的投影能盡可能分開)主成分分析的優化目標為:

對上述兩個式子使用拉格朗日乘子法得:

於是,只需對協方差矩陣xx

t 進行特徵值分解,將求得的特徵值排序:λ1

≥λ2≥

...≥

λd,再取前d′

個特徵值對應的特徵向量構成w∗

=(ω1

,ω2,

...,

ωd′)

,這就是主成分分析的解。

pca僅需保留w∗

與樣本的均值向量即可通過簡單的向量減法和矩陣-向量乘法將新樣本投影至低維空間中。

對應於最小的d−

d′個特徵值的特徵向量被捨棄了。但這種捨棄往往是必要的:

- 捨棄這部分資訊之後能使樣本的取樣密度增大

- 當資料收到雜訊影響時,最小的特徵值所對應的特徵向量往往與雜訊有關,將它們捨棄能在一定程度上起到去噪的效果。

第十章 函式

使用def關鍵字 定義個數可變的位置形參 定義個數可變的關鍵字形參 定義預設值引數 定義個數可變的位置形參 deffun1 args 結果為乙個元組 print args fun1 10,20,30 10,20,30 定義個數可變的關鍵字形參 deffun2 args 結果為乙個字典 print a...

第十章 屬性

z屬性 本章也比較簡單稍作介紹 無參屬性就是我們常見的屬性 可以封裝屬性 以執行緒安全方式訪問 有參屬性就是c 中的所引器 匿名型別 如圖遇到如下 具體點就是 上面的注釋也已經講清楚了,定義的型別之後,構造例項,然後初始化屬性。現在詳細說下 編譯器接收到 上圖 先用var 定義乙個型別,但是不具體指...

第十章 屬性

目錄 10.1 無參屬性 10.2 有參屬性 10.3 呼叫屬性訪問器方法時的效能 10.4 屬性訪問器的可訪問性 10.5 泛型屬性訪問器方法 物件導向設計和程式設計的重要原則之一就是資料封裝,意味著型別的字段不應該公開,否則很容易因為不恰單使用欄位而破壞物件的狀態。可將屬性想象成智慧型字段,即背...