邏輯回歸問題總結

2021-08-26 17:42:34 字數 2442 閱讀 1305

1.簡介

邏輯回歸是面試當中非常喜歡問到的乙個機器學習演算法,因為表面上看邏輯回歸形式上很簡單,很好掌握,但是一問起來就容易懵逼。所以在面試的時候給大家的第乙個建議不要說自己精通邏輯回歸,非常容易被問倒,從而減分。下面總結了一些平常我在作為面試官面試別人和被別人面試的時候,經常遇到的一些問題。

2.正式介紹

如何凸顯你是乙個對邏輯回歸已經非常了解的人呢。那就是用一句話概括它!邏輯回歸假設資料服從伯努利分布,通過極大化似然函式的方法,運用梯度下降來求解引數,來達到將資料二分類的目的。

這裡面其實包含了5個點 1:邏輯回歸的假設,2:邏輯回歸的損失函式,3:邏輯回歸的求解方法,4:邏輯回歸的目的,5:邏輯回歸如何分類。這些問題是考核你對邏輯回歸的基本了解。

3.對邏輯回歸的進一步提問

邏輯回歸雖然從形式上非常的簡單,但是其內涵是非常的豐富。有很多問題是可以進行思考的

4.邏輯回歸的優缺點總結

面試的時候,別人也經常會問到,你在使用邏輯回歸的時候有哪些感受。覺得它有哪些優缺點。

在這裡我們總結了邏輯回歸應用到工業界當中一些優點:

但是邏輯回歸本身也有許多的缺點:

lr與svm:

首先是兩者的共同點:

1,lr和svm都是分類演算法

2,如果不考慮核函式,lr和svm都是線性分類演算法,即分類決策面都是線性的

3,lr和svm都是有監督學習演算法

4,lr和svm都是判別模型

模型作為統計學習的三要素之一(模型,策略,演算法)

模型:學習什麼樣的模型,模型就是所要學習的條件概率分布或者說是決策函式,ps有監督學習和無監督學習都要訓練乙個模型,然後泛化應用

策略:按照什麼樣的準則學習或者選擇最優的模型,包括損失函式和風險函式,損失函式是一次的好壞,風險函式是平均的好壞

常用的損失函式有0-1損失函式,平方損失函式,絕對值損失函式和對數損失函式,認為損失函式值越小,模型就越好

經驗風險就是模型關於聯合分布的期望損失,經驗風險最小化(erm)策略就認為經驗風險最小的模型為最優模型,最大似然估計就是經驗風險最小化的乙個例子

結構風險最小化就等價於正則化,加入正則化項或者懲罰項,往往對訓練資料和測試資料都有很好的**(避免對於訓練資料的過擬合問題,具有較好的泛化能力),貝葉斯估計中的最大後驗概率估計就是結構風險最小化的例子

演算法:也就是指學習模型的具體計算方法,統計學習通常歸結為最優化問題,如何保證找到全域性最優解,並使求解過程非常高效,就需要好的最優化演算法

判別模型主要有:k近鄰,感知機(svm),決策樹,邏輯斯蒂回歸(lr),最大熵模型,提公升方法(boost)和條件隨機場

與判別模型對應的是生成模型,比如樸素貝葉斯,隱馬爾可夫模型

兩者的區別是生成模型由資料求得聯合概率分布p(x, y),然後求出條件概率分布p(y|x)作為**

而判別模型由資料直接求得決策函式f(x),或者條件概率分布p(y|x)

判別模型的特點:直接面對**,準確率高;可以簡化學習問題,對資料進行各種程度的抽象,定義特徵等

生成模型的特點:可以還原出聯合概率密度;收斂速度快,當樣本容量增加時也能很快的收斂;存在隱變數時,仍可以使用

兩者的不同點:

1,損失函式的不同,邏輯回歸採用的是log loss(對數損失函式),svm採用的是hinge loss(合頁損失函式)

2,分類原理的不同,lr基於概率理論,通過極大似然估計的方法估計出引數的值,而svm基於幾何間隔最大化原理,認為存在最大幾何間隔的分類面為最優分類面,從最大間隔出發,轉化為求對變數w和b的凸二次規劃問題

3,由於分類原理的不同,也導致了lr是所有樣本都有影響,而svm只是少量樣本有影響的(支援向量),在支援向量外新增樣本點是沒有影響的

4,正因為lr受資料影響較大,所以在資料不同類別時,要先對資料做balancing

5,同樣的,由於svm依賴資料表達的距離測度,所以要先對資料做normalization標準化

6,對於線性不可分的情況,svm的核函式可以幫助將低維不可分的資料轉換到高維,變成線性可分的,而lr很少用到核函式(並不是沒有。。)假設我們在lr裡也運用核函式的原理,那麼每個樣本點都必須參與核計算,這帶來的計算複雜度是相當高的。所以,在具體應用時,lr很少運用核函式機制。​

7,svm的損失函式就自帶正則(損失函式中的1/2||w||^2項),這就是為什麼svm是結構風險最小化演算法的原因,而lr必須另外在損失函式上新增正則化

關於lr和svm的選擇:

1. 如果feature的數量很大,跟樣本數量差不多,這時候選用lr或者是linear kernel的svm

2. 如果feature的數量比較小,樣本數量一般,不算大也不算小,選用svm+gaussian kernel

3. 如果feature的數量比較小,而樣本數量很多,需要手工新增一些feature變成第一種情況

邏輯回歸問題

pandas中的iloc方法 在對csv檔案進行讀取的時候,使用iloc方法比較方便,如 對這麼乙個資料進行讀取 0,30.83,0,0,0,9,0,1.25,0,0,1,1,0,202,0,1 1,58.67,4.46,0,0,8,1,3.04,0,0,6,1,0,43,560,1 1,24.5,...

邏輯回歸 總結

a logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型,常用於資料探勘,疾病自動診斷,經濟 等領域。b 例如,引發疾病的危險因素,並根據危險因素 疾病發生的概率等。以胃癌病情分析為例,選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群必定具有不同的體徵與生活方式等。c ...

邏輯回歸原理總結

回顧線性回歸 y x t beta 我們知道響應變數 y 一般是連續的,但在分類問題中,比如常見的二分類中 y 0 或 y 1 是非連續的。為了依舊能夠利用輸入特徵 x 的線性函式來建立分類的後驗概率 p y 0 和 p y 1 可以對線性回歸 x t beta 進行如下變換 g x frac 可以...