機器學習面試問題2

2021-07-15 18:38:15 字數 1955 閱讀 5941

logistic(邏輯回歸)是一種廣義線性回歸分析模型,是一種分類演算法。

通過函式l將w『x+b對應乙個隱狀態p,p =l(w『x+b),然後根據p 與1-p的大小決定因變數的值。l是logistic函式.

該模型是典型的數學模型,它服從邏輯斯蒂分布。

二項邏輯斯蒂回歸模型是如下的條件概率分布:

在這裡,x是輸入,y是輸出,w是權值向量引數,b是偏置引數。

對於給定的輸入例項x,按照以上兩個公式可以求得p(y=1|x)和p(y=0|x)。邏輯斯蒂回歸比較兩個條件概率值的大小,將例項x分到概率值較大的那一類。

將權值向量和輸入向量加以擴充,仍記作w,x,即w=(x1,x2,…,wn,b),x=(x1,x2,…,xn,1)。這時,邏輯斯蒂回歸模型如下:

線性函式的值越接近正無窮,概率值就越接近1;線性函式的值越接近負無窮,概率值就越接近0.如下圖:

邏輯斯蒂回歸模型學習時,對於給定的訓練資料集可以應用極大似然估計法估計模型引數,這樣,問題就變成了以對數似然函式為目標函式的最優化問題,邏輯斯蒂回歸模型學習中通常採用的方法是梯度下降法及擬牛頓法。得到w的極大似然估計值w』,就可以得到邏輯斯蒂回歸模型。

二項邏輯斯蒂回歸模型可以推廣到多項邏輯斯蒂回歸模型:

二項邏輯斯蒂回歸的引數估計法也可以推廣到多維邏輯斯蒂回歸。

k-nn(k近鄰法)是一種基本分類和回歸方法。

k近鄰模型的三個基本要素:距離度量,k值的選擇,分類決策規則。常用的距離度量是歐式距離及更一般的lp距離。k值小時,k近鄰模型更複雜;k值大時,k近鄰模型更簡單。k值的選擇反映了對近似誤差與估計誤差之間的權衡,通常由交叉驗證選擇最優的k。常用的分類決策規則是多數表決,對應於經驗風險最小化。

k近鄰模型對應於訓練資料集對特徵空間的乙個劃分。k近鄰法中,當三個基本要素確定後,其結果唯一確定。

k近鄰法的基本做法:

對給定的訓練例項點和輸入例項點,首先確定輸入例項點的k個最近鄰訓練例項點,然後利用這k個訓練例項點的類的多數來**輸入例項的類。

k近鄰法的實現需要考慮如何快速搜尋k個最近鄰點。kd樹是一種便於對k維空間中的資料進行快速檢索的資料結構。kd樹是二叉樹,表示對k維空間的乙個劃分,其每個節點對應於k維空間劃分中的乙個超矩形區域。利用kd樹可以省去對大部分資料點的搜尋,從而減少搜尋的計算量。

k-means演算法是一種聚類演算法。

以歐式距離作為相似度測度,它是求對應某一初始聚類中心向量v最優分類,使得評價指標j最小。演算法採用誤差平方和準則函式作為聚類準則函式。

基本思想:從n個物件中任意選擇k個物件為中心進行聚類,而對於剩下的其他物件,則根據它們與這些聚類中心(距離均值所對應的物件)的相似度(距離),按照最小距離分別將它們分配給與其最相似的(距離聚類中心所代表的聚類是最小的)聚類,然後再計算每個所獲新聚類的聚類中心(該聚類中的中心物件)結果將n個物件劃分為k個聚類,且這些聚類滿足:同一聚類中的物件相似度較高,不同聚類中的物件相似度較小。

演算法流程:

首先從n個資料物件中任意選擇k個物件作為初始聚類中心,將剩下的其他物件分別計算它們到這k個聚類中心的距離,歸到距離最小的聚類中,每聚一次類,都要重新計算一次聚類中心,規則是將所有物件的距離均值所對應的物件作為聚類中心。

機器學習面試問題1

監督 輸入的資料有明確的標識,可建立模型做 多用於分類和回歸。非監督 資料並不被特別標識,需要建立模型得出資料的內在結構,多用於聚類。l1範數 l1 norm 是指向量中各個元素絕對值之和,也有個美稱叫 稀疏規則運算元 lasso regularization 比如 向量a 1,1,3 那麼a的l1...

機器學習面試問題10

線性分類器 模型是引數的線性函式,分類平面是 超 平面 非線性分類器 模型分介面可以是曲面或者超平面的組合。典型的線性分類器有感知機,lda,邏輯斯特回歸,svm 線性核 典型的非線性分類器有樸素貝葉斯 有文章說這個本質是線性的,決策樹,svm 非線性核 線性分類器判別簡單 易實現 且需要的計算量和...

機器學習面試問題 1

常用特徵歸一化 線性函式 xno rm x xmi nxma x xm inx frac x xnorm xma x x min x xm in 零均值歸一化 z x x z frac z x x 使用歸一化可以使得特徵變得更為一致,容易更快地通過梯度下降找到最優解。ps 決策樹不適用歸一化,因為以...