機器學習筆試題(一)

2021-09-18 02:37:39 字數 4177 閱讀 6454

判別方法:由資料直接學習決策函式 y = f(x),或者由條件分布概率 p(y|x)作為**模型,即判別模型。

生成方法:由資料學習聯合概率密度分布函式 p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型。

由生成模型可以得到判別模型,但由判別模型得不到生成模型。

常見判別模型:k近鄰、svm、決策樹、感知機、線性判別分析(lda)、線性回歸、傳統的神經網路、邏輯斯蒂回歸、boosting、條件隨機場

常見生成模型:樸素貝葉斯、隱馬爾可夫模型、高斯混合模型、文件主題生成模型(lda)、限制玻爾茲曼機

共軛梯度法(conjugate gradient)是介於最速下降法與牛頓法之間的乙個方法,它僅需利用一階導數資訊,但克服了最速下降法收斂慢的缺點,又避免了牛頓法需要儲存和計算hesse矩陣並求逆的缺點,共軛梯度法不僅是解決大型線性方程組最有用的方法之一,也是解大型非線性最優化最有效的演算法之一。 在各種優化演算法中,共軛梯度法是非常重要的一種。其優點是所需儲存量小,具有步收斂性,穩定性高,而且不需要任何外來引數。

感謝博主提供,記錄自學用!

請簡要介紹下svm

svm,全稱是support vector machine,中文名叫支援向量機。svm是乙個面向資料的分類演算法,它的目標是為確定乙個分類超平面,從而將不同的資料分隔開。

擴充套件:支援向量機學習方法包括構建由簡至繁的模型:線性可分支援向量機、線性支援向量機及非線性支援向量機。當訓練資料線性可分時,通過硬間隔最大化,學習乙個線性的分類器,即線性可分支援向量機,又稱為硬間隔支援向量機;當訓練資料近似線性可分時,通過軟間隔最大化,也學習乙個線性的分類器,即線性支援向量機,又稱為軟間隔支援向量機;當訓練資料線性不可分時,通過使用核技巧及軟間隔最大化,學習非線性支援向量機。

lr和svm的聯絡與區別

1、lr和svm都可以處理分類問題,且一般都用於處理線性二分類問題(在改進的情況下可以處理多分類問題)

2、兩個方法都可以增加不同的正則化項,如l1、l2等等。所以在很多實驗中,兩種演算法的結果是很接近的。 

區別: 

1、lr是引數模型,svm是非引數模型。 

2、從目標函式來看,區別在於邏輯回歸採用的是logistical loss,svm採用的是hinge loss.這兩個損失函式的目的都是增加對分類影響較大的資料點的權重,減少與分類關係較小的資料點的權重。 

3、svm的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性對映,大大減小了離分類平面較遠的點的權重,相對提公升了與分類最相關的資料點的權重。 

4、邏輯回歸相對來說模型更簡單,好理解,特別是大規模線性分類時比較方便。而svm的理解和優化相對來說複雜一些,svm轉化為對偶問題後,分類只需要計算與少數幾個支援向量的距離,這個在進行複雜核函式計算時優勢很明顯,能夠大大簡化模型和計算。 

5、logic 能做的 svm能做,但可能在準確率上有問題,svm能做的logic有的做不了。

lr與線性回歸的區別與聯絡

個人感覺邏輯回歸和線性回歸首先都是廣義的線性回歸, 

其次經典線性模型的優化目標函式是最小二乘,而邏輯回歸則是似然函式, 

另外線性回歸在整個實數域範圍內進行**,敏感度一致,而分類範圍,需要在[0,1]。邏輯回歸就是一種減小**範圍,將**值限定為[0,1]間的一種回歸模型,因而對於這類問題來說,邏輯回歸的魯棒性比線性回歸的要好。 

@乖乖癩皮狗:邏輯回歸的模型本質上是乙個線性回歸模型,邏輯回歸都是以線性回歸為理論支援的。但線性回歸模型無法做到sigmoid的非線性形式,sigmoid可以輕鬆處理0/1分類問題。

在k-means或knn,我們是用歐氏距離來計算最近的鄰居之間的距離。為什麼不用曼哈頓距離

曼哈頓距離只計算水平或垂直距離,有維度的限制。另一方面,歐氏距離可用於任何空間的距離計算問題。因為,資料點可以存在於任何空間,歐氏距離是更可行的選擇。例如:想象一下西洋棋棋盤,象或車所做的移動是由曼哈頓距離計算的,因為它們是在各自的水平和垂直方向做的運動。

特徵工程:

「資料決定了機器學習的上限,而演算法只是盡可能逼近這個上限」,這裡的資料指的就是經過特徵工程得到的資料。特徵工程指的是把原始資料轉變為模型的訓練資料的過程,它的目的就是獲取更好的訓練資料特徵,使得機器學習模型逼近這個上限。特徵工程能使得模型的效能得到提公升,有時甚至在簡單的模型上也能取得不錯的效果。特徵工程在機器學習中占有非常重要的作用,一般認為括特徵構建、特徵提取、特徵選擇三個部分。特徵構建比較麻煩,需要一定的經驗。 特徵提取與特徵選擇都是為了從原始特徵中找出最有效的特徵。它們之間的區別是特徵提取強調通過特徵轉換的方式得到一組具有明顯物理或統計意義的特徵;而特徵選擇是從特徵集合中挑選一組具有明顯物理或統計意義的特徵子集。兩者都能幫助減少特徵的維度、資料冗餘,特徵提取有時能發現更有意義的特徵屬性,特徵選擇的過程經常能表示出每個特徵的重要性對於模型構建的重要性。本文主要嘗試總結幾個常用的特徵提取和特徵選擇的方法。

防止過擬合的方法

early stopping、資料集擴增、正則化方法、dropout、batch normalizatin(batch normalizatin優點①不僅僅極大提公升了訓練速度,收斂過程大大加快;②還能增加分類效果,一種解釋是這是類似於dropout的一種防止過擬合的正則化表達方式,所以不用dropout也能達到相當的效果;③另外調參過程也簡單多了,對於初始化要求沒那麼高,而且可以使用大的學習率等。

l1和l2正則化方法的區別

求對w導數

,得到

比原始的更新規則多出了

當w為正時,sgn(w)>0, 則更新後的w變小。

當w為負時,sgn(w)>0, 則更新後的w變大——因此它的效果就是讓w往0靠,使網路中的權重盡可能為0,也就相當於減小了網路複雜度,防止過擬合。

2.l2 regularization(權重衰減

c0代表原始的代價函式,後面那一項就是l2正則化項。它是這樣來的:全部引數 w 的平方和,除以訓練集的樣本大小n。

λ 就是正則項係數,權衡正則項與c0項的比重。另外另乙個係數1/2,1/2經常會看到,主要是為了後面求導的結果方便,後面那一項求導會產生乙個2,與1/2相乘剛好湊整。l2正則化項是怎麼避免overfitting的呢?我們推導一下看看,先求導:

能夠發現l2正則化項對 b 的更新沒有影響,可是對於w的更新有影響:

在不使用l2正則化時。求導結果中 w 前係數為 1,經變化後w前面係數為 1−ηλ/n ,由於η、λ、n都是正的。所以 1−ηλ/n小於1,它的效果是減小w,這也就是權重衰減(weight decay)的由來。

3.在什麼情況下使用l1,什麼情況下使用l2?

l1會趨向於產生少量的特徵,而其他的特徵都是0,而l2會選擇更多的特徵,這些特徵都會接近於0。lasso在特徵選擇時候非常有用,而ridge就只是一種規則化而已。

機器學習筆試題一

1.輸入大小為200 200,依次經過一層卷積 kernel size 5 5,padding 1,stride 2 pooling kernel size 3 3,padding 0,stride 1 又一層卷積 kernel size 3 3,padding 1,stride 1 之後,輸出特徵...

機器學習 機器學習試題 一

在網上找的一些試題及延伸的一些問題,以選擇題為主,主要是關於基礎理論知識,同時給出自己聯想到的一些問題。當然基礎問題應當包含演算法本身的過程和某些推導過程。比如 lr svm的推導。試題1 已知座標軸中兩點a 2,2 b 1,2 求 這兩點的曼哈頓距離 l1距離 答案 7 向量ab 3,4 l1 是...

機器學習筆試

分詞方法大致可分為三大類 基於字串匹配的分詞方法 機械分詞方法 基於統計的分詞方法和基於理解的分詞方法。機械分詞方法主要有整箱最大匹配演算法 逆向最大匹配演算法 雙向最大匹配演算法和最少切分演算法。id3演算法要求特徵必須離散化 主動學習方法 有時候,有類標號的資料比較稀少而沒有類標號的資料相當豐富...