常用特徵歸一化:
線性函式:xno
rm=x
−xmi
nxma
x−xm
inx_=\frac}-x_}
xnorm
=xma
x−x
min
x−xm
in
零均值歸一化:z=x
−μx−
δz=\frac
z=x−δx
−μ使用歸一化可以使得特徵變得更為一致,容易更快地通過梯度下降找到最優解。
ps:決策樹不適用歸一化,因為以c4.5為例, 決 策樹在進行節點**時主要依據資料集d關於特徵x的資訊增益比,而資訊增益比跟特徵是否經過歸一化是無關的, 因為歸 一化並不會改變樣本在特徵x上的資訊增益
ordinal encoding: eg,1,2,3…
one-hot encoding:
binary encoding
其他編碼:helmert contrast, polynomial contrast etc.
詞袋模型和n-gram模型
t f−
idf(
t,d)
=tf(
t,d)
×idf
(t)tf-idf(t,d)=tf(t,d)×idf(t)
tf−idf
(t,d
)=tf
(t,d
)×id
f(t)
f(t,d): 單詞t在文件d**現的頻率
idf(t): 逆文件頻率,表示單詞t對表達語義所起的重要性。
idf(t)=log(文章總數 / 包含單詞t的文章總數+1)
主題模型
詞嵌入與深度學習模型
cbow的目標是根據上下文出現的詞語來**當前詞的生成概率,而skip-gram是根據當前詞來**上下文中各詞的生成概率,如圖所示。
cbow和skip-gram都可以表示成由輸入層(input)、對映層(projection)和輸出層(output) 組成的神經網路
影響:
影象分類任務中,訓練資料不足主要會造成過擬合,即模型在訓練樣本上效果不錯,但是測試不虛,範化能力不足。
解決:
遷移學習:借助已有的其他模型或資料來進行遷移學習在深度學習中也十分常見。例如, 對於大部分影象分類任務,並不需要從頭開始訓練模型,而是借用乙個在大規模資料集上預訓練好的通用模型,並在針對目標任務的小資料集上進行微調(fine-tune)。
機器學習面試問題1
監督 輸入的資料有明確的標識,可建立模型做 多用於分類和回歸。非監督 資料並不被特別標識,需要建立模型得出資料的內在結構,多用於聚類。l1範數 l1 norm 是指向量中各個元素絕對值之和,也有個美稱叫 稀疏規則運算元 lasso regularization 比如 向量a 1,1,3 那麼a的l1...
機器學習面試問題2
logistic 邏輯回歸 是一種廣義線性回歸分析模型,是一種分類演算法。通過函式l將w x b對應乙個隱狀態p,p l w x b 然後根據p 與1 p的大小決定因變數的值。l是logistic函式.該模型是典型的數學模型,它服從邏輯斯蒂分布。二項邏輯斯蒂回歸模型是如下的條件概率分布 在這裡,x是...
機器學習面試問題10
線性分類器 模型是引數的線性函式,分類平面是 超 平面 非線性分類器 模型分介面可以是曲面或者超平面的組合。典型的線性分類器有感知機,lda,邏輯斯特回歸,svm 線性核 典型的非線性分類器有樸素貝葉斯 有文章說這個本質是線性的,決策樹,svm 非線性核 線性分類器判別簡單 易實現 且需要的計算量和...