機器學習面試題

2021-08-08 22:56:25 字數 1029 閱讀 5215

答:設計乙個分類模型,首先要給它設定乙個學習目標。在支援向量機中,這個目標是max-margin;在adaboost中,目標是優化乙個指數損失函式。那麼在logistic regression (lr)中,這個目標是什麼呢?最大化條件似然度。考慮乙個二值分類問題,訓練資料是一堆(特徵,標記)組合,(x1,y1), (x2,y2), …. 其中x是特徵向量,y是類標記(y=1表示正類,y=0表示反類)。lr首先定義乙個條件概率p(y|x;w)。 p(y|x;w)表示給定特徵x,類標記y的概率分布,其中w是lr的模型引數(乙個超平面)。有了這個條件概率,就可以在訓練資料上定義乙個似然函式,然後通過最大似然來學習w。這是lr模型的基本原理。

那麼接下來的問題是如何定義這個條件概率呢?sigmoid函式就派上用場了。我們知道,對於大多數(或者說所有)線性分類器,response value(響應值)(w和x的內積) 代表了資料x屬於正類(y=1)的confidence (置信度)。越大,這個資料屬於正類的可能性越大;越小,屬於反類的可能性越大。在整個實數範圍內取值。現在我們需要用乙個函式把從實數空間對映到條件概率p(y=1|x,w),並且希望越大,p(y=1|x,w)越大;越小,p(y=1|x,w)越小(等同於p(y=0|x,w)越大),而sigmoid函式恰好能實現這一功能(參見sigmoid的函式形狀):首先,它的值域是(0,1),滿足概率的要求;其次,它是乙個單調上公升函式。最終,p(y=1|x,w)=sigmoid ().

綜上,lr通過最大化類標記的條件似然度來學習乙個線性分類器。為了定義這個條件概率,使用sigmoid 函式將線性分類器的響應值對映到乙個概率上。sigmoid的值域為(0,1),滿足概率的要求;而且是乙個單調上公升函式,可將較大的對映到較大的概率p(y=1|x,w)。sigmoid的這些良好性質恰好能滿足lr的需求。

答:答:

答:答:

答:答:

答:答:

機器學習面試題目

過擬合原因 資料 資料不規範,資料量少,資料穿越,統計特徵用到了未來的資訊或者標籤資訊 演算法 演算法過於複雜 解決 1 將資料規範化,處理缺失值,增加資料量,取樣,新增雜訊資料 2 正則化,控制模型複雜程度,3 early stoping,減少迭代次數,減少樹的深度,4 學習率調大 小點 5 融合...

機器學習面試題 XGBoost

相同點 不同點 先說說lrlr lr和g bd tgbdt gbdt 的區別 當在高維稀疏特徵的場景下,lrlr lr的效果一般會比gbd tgbdt gbdt 好。原因如下 先看乙個例子 假設乙個二分類問題,label為0和1,特徵有100維,如果有1w個樣本,但其中只要10個正樣本1,而這些樣本...

機器學習面試題 BERT

bert可以看成乙個自編碼的語言模型,主要用兩個任務訓練該模型。nsp next sentence prediction bert只使用了transformer的encoder模組,與transformer本身的encoder端相比,bert的transformer encoder端輸入的向量表示,...