實習完回學校,搞完了開題答辯,最近因為找工作需要,開始複習一些演算法方面在筆試面試中會遇到的問題。用部落格記錄,之後要再看的話比較方便。如有錯誤,歡迎指正。
一、邏輯回歸是分類方法。
二、用的是sigmoid啟用函式,特點:
1.將輸入值對映到(0,1)區間。
2.函式影象連續且光滑,嚴格的單調遞增函式,處處可導。
3.在0附近比較敏感。
優點:形式簡單,易使用和解釋,速度快。
缺點:準確率不高(在離0越遠的地方越不敏感,導致對那裡的資料沒有區分度)。收斂慢。
三、正則化
weightdecay的作用是將模型的複雜度降低。
正則化:防止過擬合。保留所有特徵,減小不重要係數所佔的比重。
問的比較多的是l1和l2的區別:
1.l1是模型各個引數的絕對值之和;l2是模型各個引數平方和的開方。
2.l1會趨向於產生少量的特徵,而其他的特徵都是0(稀疏矩陣);l2會選擇更多的特徵,這些特徵都會接近於0。
四、最小二乘法(ordinary least square,ols)
(1)對於函式hθ(
x1,.
..,x
n)=θ
0+θ1
∗x1+
...+
θn∗x
nh_θ(x1,...,xn)=θ_0+θ_1*x_1+...+θ_n*x_n
hθ(x1
,...
,xn)
=θ0
+θ1
∗x1
+...
+θn
∗xn
(2)損失函式j(θ
0,..
.,θn
)=∑j
=1m(
∑i=0
nθix
i(j)
−y(j
))2j(θ_0,...,θ_n)=∑_^(∑_^θ_ix_i^-y^)^2
j(θ0,
...,
θn)
=∑j=
1m(
∑i=0
nθi
xi(
j)−
y(j)
)2(3)損失函式對每個θ
iθ_i
θi求導,並使之=0
(4)得到(n+1)個方程組,有(n+1)個未知的θ,剛好可以求得
優點:簡潔高效;比梯度下降的迭代法方便很多。
缺點:xtx
x^tx
xtx不可逆時,無法使用;最小二乘法是線性估計,已經預設了是線性的關係,使用有一定侷限性。
五、梯度下降法
將當前的引數值,往梯度的反方向移動。
(1)對於函式hθ(
x1,.
..,x
n)=θ
0+θ1
∗x1+
...+
θn∗x
nh_θ(x1,...,xn)=θ_0+θ_1*x_1+...+θ_n*x_n
hθ(x1
,...
,xn)
=θ0
+θ1
∗x1
+...
+θn
∗xn
(2)損失函式j(θ
0,..
.,θn
)=(1
/2m)
∑j=1
m(∑i
=0nθ
ixi(
j)−y
(j))
2j(θ_0,...,θ_n)=(1/2m)∑_^(∑_^θ_ix_i^-y^)^2
j(θ0,
...,
θn)
=(1/
2m)∑
j=1m
(∑i
=0n
θix
i(j)
−y(
j))2
(3)對每個θ求偏導。
(4)tem
pi=θ
i−α∗
[αj(
θ0,.
..,θ
n)/α
θi]temp_i=θ_i-α*[αj(θ_0,...,θ_n)/αθ_i]
tempi
=θi
−α∗[
αj(θ
0,.
..,θ
n)/
αθi
](i=0,…,n)
(5)θi=
temp
iθ_i=temp_i
θi=te
mpi
(i=0,…,n)(注意這裡是用前一輪所有值的來計算這一輪的所有值)
5.1 批量梯度下降法(bgd)
每更新乙個引數的時候,要用到所有的樣本數。
優點:迭代次數少,找到的是全域性最優解,易於並行實現。
缺點:當樣本量很大的時候,迭代一次需要很長的時間。
5.2 隨機梯度下降法(sgd)
隨機選擇乙個樣本,通過該樣本來更新所有的引數。
優點:每次更新需要的時間比較短。
缺點:需要很多次迭代才會收斂,找到的不一定是全域性最優。
5.3 小批量梯度下降法(mbgd)
綜合bgd和sgd。每次你選擇d個訓練樣本,使用這d個樣本,更新所有的引數。
α:學習率。過大:跨步大,可能錯過全域性最小點;過小:收斂十分緩慢。
六、欠擬合和過擬合
欠擬合是模型不能很好地擬合訓練資料;過擬合是模型能很好地擬合訓練資料,但是不能很好地擬合測試資料。
奧卡姆剃刀原理:在同樣能夠解釋已知觀測現象的假設中,應當挑選「最簡單」的那乙個。
七、偏差和方差
偏差是**值偏離真實值的誤差期望;方差是資料上任意特定取樣可能導致的估計期望的偏差。
八、控制演算法的效能
一是允許使用的函式種類;二是函式的數量。
機器學習 邏輯回歸 Python實現邏輯回歸
coding utf 8 author 蔚藍的天空tom import numpy as np import os import matplotlib.pyplot as plt from sklearn.datasets import make blobs global variable path...
邏輯回歸模型 SAS邏輯回歸模型訓練
邏輯回歸模型是金融信貸行業製作各類評分卡模型的核心,幾乎80 的機器學習 統計學習模型演算法都是邏輯回歸模型,按照邏輯美國金融公司總結的sas建模過程,大致總結如下 一般通用模型訓練過程 a 按照指定需求和模型要求製作driver資料集,包含欄位有user id,dep b 其中,空值賦預設值即 c...
線性回歸與邏輯回歸
cost functionj 12m i 1m h x i y i hypothesish x tx 梯度下降求解 為了最小化j j j 1m i 1m h x i y i x i j 每一次迭代更新 j j 1m i 1m h x i y i x i j 正規方程求解 最小二乘法 xtx 1x t...