q1:邏輯回歸在訓練的過程當中,如果有很多的特徵高度相關或者說有乙個特徵重複了很多遍,會造成怎樣的影響
如果在損失函式最終收斂的情況下,其實就算有很多特徵高度相關也不會影響分類器的效果。 但是對特徵本身來說的話,假設只有乙個特徵,在不考慮取樣的情況下,你現在將它重複 n 遍。訓練以後完以後,資料還是這麼多,但是這個特徵本身重複了 n 遍,實質上將原來的特徵分成了 n 份,每乙個特徵都是原來特徵權重值的百分之一。
q2:為什麼還是會在訓練的過程當中將高度相關的特徵去掉
去掉高度相關的特徵會讓模型的可解釋性更好;
可以大大提高訓練的速度。
q3:邏輯回歸的優缺點
缺點:
q4:簡單介紹一下邏輯回歸演算法
邏輯回歸是在資料服從伯努利分布的假設下,通過極大似然的方法,運用梯度下降法來求解引數,從而達到將資料二分類的目的
q5:機器學習中的損失函式
q6:給你乙個有1000列和1百萬行的訓練資料集,這個資料集是基於分類問題的。經理要求你來降低該資料集的維度以減少模型計算時間,但你的機器記憶體有限。你會怎麼做?(你可以自由做各種實際操作假設。)
你的面試官應該非常了解很難在有限的記憶體上處理高維的資料。以下是你可以使用的處理方法:
1.由於我們的ram很小,首先要關閉機器上正在執行的其他程式,包括網頁瀏覽器等,以確保大部分記憶體可以使用。
2.我們可以隨機取樣資料集。這意味著,我們可以建立乙個較小的資料集,比如有1000個變數和30萬行,然後做計算。
3.為了降低維度,我們可以把數值變數和分類變數分開,同時刪掉相關聯的變數。對於數值變數,我們將使用相關性分析;對於分類變數,我們可以用卡方檢驗。
4.另外,我們還可以使用pca(主成分分析),並挑選可以解釋在資料集中有最大偏差的成分。
6.利用stochastic gradientdescent(隨機梯度下降法)建立線性模型也很有幫助。
7.我們也可以用我們對業務的理解來估計各**變數對響應變數的影響的大小。但是,這是乙個主觀的方法,如果沒有找出有用的**變數可能會導致資訊的顯著丟失。
q7:給你乙個資料集,這個資料集有缺失值,且這些缺失值分布在離中值有1個標準偏差的範圍內。百分之多少的資料不會受到影響?為什麼?
約有32%的資料將不受缺失值的影響。因為,由於資料分布在中位數附近,讓我們先假設這是乙個正態分佈。我們知道,在乙個正態分佈中,約有68%的資料位於跟平均數(或眾數、中位數)1個標準差範圍內,那麼剩下的約32%的資料是不受影響的。因此,約有32%的資料將不受缺失值的影響。
機器學習面試題之邏輯回歸(二)
1.邏輯回歸概述 邏輯回歸是乙個線性的二分類模型,主要是計算在某個樣本特徵下事件發生的概率,比如根據使用者的瀏覽購買情況作為特徵來計算他是否會購買這個商品,lr的最終值是根據乙個線性和函式再通過乙個sigmoid函式來求得的,該線性和函式是權重與特徵值的累加以及加上偏置求出來的,所以訓練lr也就是訓...
邏輯回歸面試題
q1 邏輯回歸的損失函式,為什麼要用這個損失函式 邏輯回歸的損失函式是它的極大似然函式。損失函式一般有四種,平方損失函式,對數損失函式,hingeloss0 1損失函式,絕對值損失函式。將極大似然函式取對數以後等同於對數損失函式。在邏輯回歸這個模型下,對數損失函式的訓練求解引數的速度是比較快的。q2...
機器學習 邏輯回歸常見面試題整理
1.介紹 邏輯回歸假設資料服從伯努利分布,通過極大化似然函式的方法,運用梯隊下降來求解引數,來達到將資料二分類的目的。2.邏輯回歸的損失函式和梯度下降引數迭代方法 3.邏輯回歸為什麼使用對數損失而不用平方損失 損失函式一般有四種,平方損失函式,對數損失函式,hingeloss0 1損失函式,絕對值損...