西瓜書零碎

2021-10-07 14:20:48 字數 3407 閱讀 8738

離散屬性連續化: 如果屬性值間有「序」的關係,如身高的高和矮轉成,三值屬性高、中和低轉化成;如果不存在序的關係,轉化成 k 維向量,如西瓜、南瓜、黃瓜轉成(0,0,1)(0,1,0)(1,0,0)

若將無序屬性連續化,則會不恰當地引入序關係,對後續處理如距離計算等造成誤導,比如評估時,經常需要計算距離

最小二乘法: 基於均方誤差最小化來進行模型求解的方法。

若二階導數在區間上非負,則稱為凸函式,若二階導數在區間上恆大於0,則稱為嚴格凸函式

規範化是將不同變化範圍的值對映到相同範圍中,常見的是[0,1],此時亦稱為歸一化

sigmoid函式即形似s的函式,對數機率函式是其典型代表。

對數機率回歸求目標函式最優解的演算法:

梯度下降法:是一種一階優化方法,是求解無約束優化問題最簡單、最經典的方法之一。只要求目標函式一階可導,不使用高階導數。

牛頓法:典型的二階優化方法,使用目標函式的二階導數,其迭代輪數遠遠小於梯度下降法,但在迭代中使用海森矩陣的逆矩陣,其計算複雜度相當高,在高維問題中幾乎不可行。

擬牛頓法:在牛頓法基礎上,尋找較低代價求得海森矩陣的近似逆矩陣

給定樣本 xi=

(xi1

;xi2

;...

;xin

)x_i=(x_; x_;...;x_)

xi​=(x

i1​;

xi2​

;...

;xin

​)與 xj=

(xj1

;xj2

;...

;xjn

)x_j=(x_; x_;...;x_)

xj​=(x

j1​;

xj2​

;...

;xjn

​),最常用的是「閔可夫斯基距離

d is

tmk(

xi,x

j)=(

∑u=1

n∣xi

u−xj

u∣p)

1p

dist_ (x_i, x_j) = (\sum_^n |x_ - x_|^p)^}

distmk

​(xi

​,xj

​)=(

u=1∑

n​∣x

iu​−

xju​

∣p)p

1​上式也是$ x_i - x_j$ 的 $ l_p $範數。當p 等於1時,即 l

1l_1

l1​ 範數也叫曼哈頓距離,當 p 等於2時,即l

2l_2

l2​ 範數也就歐式距離

二次規劃包括凸二次規劃和非凸二次規劃。在此類問題中,目標函式是變數的二次函式,而約束條件是變數的線性不等式。

正則化可理解為一種「罰函式法」,即對不希望得到的結果施以懲罰,從而使得優化過程趨向於希望的目標。從貝葉斯角度看,正則化項可認為是提供了模型的先驗概率。

假設 x

xx 表示樣本,c

cc 表示類別,p(c

∣x

)p(c|x)

p(c∣x)

表示後驗概率。

給定x

xx, 通過直接建模 p(c

∣x

)p(c|x)

p(c∣x)

來** c

cc ,這樣得到的是判別式模型,也可對聯合概率分布 p(x

,c

)p(x,c)

p(x,c)

建模,然後再由此獲得 p(c

∣x

)p(c|x)

p(c∣x)

,這樣得到的是生成式模型

基於演算法對資料擾動的反應,對一些常用學習器分成不穩定和穩定兩種。不穩定學習器:決策樹、神經網路。穩定學習器:線性學習器、支援向量機、樸素貝葉斯、k-近鄰學習器。

boosting主要關注降低偏差,而bagging主要關注降低方差。即boosting偏重對資料的擬合效果,bagging偏重對資料擾動的魯棒性。

adaboost沒有過擬合的現象:訓練誤差達到0以後,繼續訓練還能提高泛化效能,但其實如果一直訓練下去,也會過擬合。

由於整合學習包含多個學習器,即便個體學習器有較好的解釋性,整合仍是黑箱模型

概率模型提供了一種框架,將學習任務歸結於計算變數的概率分布。在概率模型中,利用已知變數推測未知變數的分布稱為「推斷」,其核心是如何基於可觀測變數推測未知變數的條件分布。具體來說,假定所關心的變數集合為 y

yy, 可觀測變數集合為 o

oo, 其他變數的集合是 r

rr, 「生成式」模型考慮聯合分布 p(y

,r∣o

)p(y,r|o)

p(y,r∣

o),「判別式」模型考慮條件分布 p(y

∣o

)p(y|o)

p(y∣o)

.給定一組觀測變數值,推斷就是由 p(y

,r,o

)p(y,r,o)

p(y,r,

o)或 p(y

,r∣o

)p(y,r|o)

p(y,r∣

o)得到條件概率分布 p(y

∣o

)p(y|o)

p(y∣o)

。概率圖模型(pgm)是一類用圖來表達變數相關關係的概率模型。根據邊的性質不同,概率圖模型大致分為兩類:第一類是有向無環圖表示變數間的依賴關係,稱為有向圖模型或貝葉斯網;第二類是使用無向圖表示變數間的相關關係,稱為無向圖模型或馬爾可夫網

若變數間存在顯式的因果關係,則常用貝葉斯網;若變數間存在相關性,但難以獲得顯式的因果關係,則常用馬爾可夫網

隱馬爾可夫模型和馬爾可夫隨機場都是生成式模型,而條件隨機場是判別式模型。

對數損失(交叉熵損失)用於測量模型的效能(分類模型),輸出是介於0~1之間的概率值。

− (y

log(

p)+(

1−y)

log(

1−p)

)-(ylog(p)+(1-y)log(1-p))

−(ylog

(p)+

(1−y

)log

(1−p

))

零碎的記錄

高內聚 類與類之間的關係而定,高,意思是他們之間的關係要簡單,明了,不要有很強的關係,不然,執行起來就會出問題。乙個 類的執行影響到其他的類。低偶合 類內部的方法而言。把程式的功能盡量分散,別在乙個類裡只寫乙個或很好的方法,因為那樣會給你的除錯等帶來很多問題 出了錯你都不知道在什麼地方。通用模組的設...

程式演算法零碎

1 判斷乙個int整型是奇數還是偶數 採用和1進行與操作 a 1 0 為0 是偶數,為1是奇數,注意一定要帶括號,因為 的優先順序高於 採用取餘操作 a 2 0 為0 是偶數,為1是奇數,不用帶括號,因為 的優先順序高於 注意不要和1進行比較 a 2 1 因為當a是負整數時結果為0或者 1,出現錯誤...

零碎知識C

c 中 dec,hex,oct,fixed,scientific,left,right,ws,setfill,setw,setprecision,eof,get,getline都是什麼意思 dec是十進位制 如cout這些是格式控制符 在使用時要加標頭檔案 include fixed是固定的意思 p...