離散屬性連續化: 如果屬性值間有「序」的關係,如身高的高和矮轉成,三值屬性高、中和低轉化成;如果不存在序的關係,轉化成 k 維向量,如西瓜、南瓜、黃瓜轉成(0,0,1)(0,1,0)(1,0,0)
若將無序屬性連續化,則會不恰當地引入序關係,對後續處理如距離計算等造成誤導,比如評估時,經常需要計算距離
最小二乘法: 基於均方誤差最小化來進行模型求解的方法。
若二階導數在區間上非負,則稱為凸函式,若二階導數在區間上恆大於0,則稱為嚴格凸函式
規範化是將不同變化範圍的值對映到相同範圍中,常見的是[0,1],此時亦稱為歸一化。
sigmoid函式即形似s的函式,對數機率函式是其典型代表。
對數機率回歸求目標函式最優解的演算法:
梯度下降法:是一種一階優化方法,是求解無約束優化問題最簡單、最經典的方法之一。只要求目標函式一階可導,不使用高階導數。
牛頓法:典型的二階優化方法,使用目標函式的二階導數,其迭代輪數遠遠小於梯度下降法,但在迭代中使用海森矩陣的逆矩陣,其計算複雜度相當高,在高維問題中幾乎不可行。
擬牛頓法:在牛頓法基礎上,尋找較低代價求得海森矩陣的近似逆矩陣
給定樣本 xi=
(xi1
;xi2
;...
;xin
)x_i=(x_; x_;...;x_)
xi=(x
i1;
xi2
;...
;xin
)與 xj=
(xj1
;xj2
;...
;xjn
)x_j=(x_; x_;...;x_)
xj=(x
j1;
xj2
;...
;xjn
),最常用的是「閔可夫斯基距離」
d is
tmk(
xi,x
j)=(
∑u=1
n∣xi
u−xj
u∣p)
1p
dist_ (x_i, x_j) = (\sum_^n |x_ - x_|^p)^}
distmk
(xi
,xj
)=(
u=1∑
n∣x
iu−
xju
∣p)p
1上式也是$ x_i - x_j$ 的 $ l_p $範數。當p 等於1時,即 l
1l_1
l1 範數也叫曼哈頓距離,當 p 等於2時,即l
2l_2
l2 範數也就歐式距離。
二次規劃包括凸二次規劃和非凸二次規劃。在此類問題中,目標函式是變數的二次函式,而約束條件是變數的線性不等式。
正則化可理解為一種「罰函式法」,即對不希望得到的結果施以懲罰,從而使得優化過程趨向於希望的目標。從貝葉斯角度看,正則化項可認為是提供了模型的先驗概率。
假設 x
xx 表示樣本,c
cc 表示類別,p(c
∣x
)p(c|x)
p(c∣x)
表示後驗概率。
給定x
xx, 通過直接建模 p(c
∣x
)p(c|x)
p(c∣x)
來** c
cc ,這樣得到的是判別式模型,也可對聯合概率分布 p(x
,c
)p(x,c)
p(x,c)
建模,然後再由此獲得 p(c
∣x
)p(c|x)
p(c∣x)
,這樣得到的是生成式模型。
基於演算法對資料擾動的反應,對一些常用學習器分成不穩定和穩定兩種。不穩定學習器:決策樹、神經網路。穩定學習器:線性學習器、支援向量機、樸素貝葉斯、k-近鄰學習器。
boosting主要關注降低偏差,而bagging主要關注降低方差。即boosting偏重對資料的擬合效果,bagging偏重對資料擾動的魯棒性。
adaboost沒有過擬合的現象:訓練誤差達到0以後,繼續訓練還能提高泛化效能,但其實如果一直訓練下去,也會過擬合。
由於整合學習包含多個學習器,即便個體學習器有較好的解釋性,整合仍是黑箱模型。
概率模型提供了一種框架,將學習任務歸結於計算變數的概率分布。在概率模型中,利用已知變數推測未知變數的分布稱為「推斷」,其核心是如何基於可觀測變數推測未知變數的條件分布。具體來說,假定所關心的變數集合為 y
yy, 可觀測變數集合為 o
oo, 其他變數的集合是 r
rr, 「生成式」模型考慮聯合分布 p(y
,r∣o
)p(y,r|o)
p(y,r∣
o),「判別式」模型考慮條件分布 p(y
∣o
)p(y|o)
p(y∣o)
.給定一組觀測變數值,推斷就是由 p(y
,r,o
)p(y,r,o)
p(y,r,
o)或 p(y
,r∣o
)p(y,r|o)
p(y,r∣
o)得到條件概率分布 p(y
∣o
)p(y|o)
p(y∣o)
。概率圖模型(pgm)是一類用圖來表達變數相關關係的概率模型。根據邊的性質不同,概率圖模型大致分為兩類:第一類是有向無環圖表示變數間的依賴關係,稱為有向圖模型或貝葉斯網;第二類是使用無向圖表示變數間的相關關係,稱為無向圖模型或馬爾可夫網。
若變數間存在顯式的因果關係,則常用貝葉斯網;若變數間存在相關性,但難以獲得顯式的因果關係,則常用馬爾可夫網。
隱馬爾可夫模型和馬爾可夫隨機場都是生成式模型,而條件隨機場是判別式模型。
對數損失(交叉熵損失)用於測量模型的效能(分類模型),輸出是介於0~1之間的概率值。
− (y
log(
p)+(
1−y)
log(
1−p)
)-(ylog(p)+(1-y)log(1-p))
−(ylog
(p)+
(1−y
)log
(1−p
))
零碎的記錄
高內聚 類與類之間的關係而定,高,意思是他們之間的關係要簡單,明了,不要有很強的關係,不然,執行起來就會出問題。乙個 類的執行影響到其他的類。低偶合 類內部的方法而言。把程式的功能盡量分散,別在乙個類裡只寫乙個或很好的方法,因為那樣會給你的除錯等帶來很多問題 出了錯你都不知道在什麼地方。通用模組的設...
程式演算法零碎
1 判斷乙個int整型是奇數還是偶數 採用和1進行與操作 a 1 0 為0 是偶數,為1是奇數,注意一定要帶括號,因為 的優先順序高於 採用取餘操作 a 2 0 為0 是偶數,為1是奇數,不用帶括號,因為 的優先順序高於 注意不要和1進行比較 a 2 1 因為當a是負整數時結果為0或者 1,出現錯誤...
零碎知識C
c 中 dec,hex,oct,fixed,scientific,left,right,ws,setfill,setw,setprecision,eof,get,getline都是什麼意思 dec是十進位制 如cout這些是格式控制符 在使用時要加標頭檔案 include fixed是固定的意思 p...