機器學習面試問題1

2021-07-15 18:33:15 字數 2652 閱讀 6220

監督:輸入的資料有明確的標識,可建立模型做**,多用於分類和回歸。

非監督:資料並不被特別標識,需要建立模型得出資料的內在結構,多用於聚類。

l1範數(l1 norm)是指向量中各個元素絕對值之和,也有個美稱叫「稀疏規則運算元」(lasso regularization)。

比如 向量a=[1,-1,3], 那麼a的l1範數為 |1|+|-1|+|3|.

簡單總結一下就是:

l1範數: 為x向量各個元素絕對值之和。

l2範數: 為x向量各個元素平方和的1/2次方,l2範數又稱euclidean範數或者frobenius範數

lp範數: 為x向量各個元素絕對值p次方和的1/p次方.

在支援向量機學習過程中,l1範數實際是一種對於成本函式求解最優的過程,因此,l1範數正則化通過向成本函式中新增l1範數,使得學習得到的結果滿足稀疏化,從而方便人類提取特徵。

l1範數可以使權值稀疏,方便特徵提取。

l2範數可以防止過擬合,提公升模型的泛化能力。

生成模型:由資料學習聯合概率密度分布p(x,y),求出條件概率分布p(y|x)作為**的模型,即生成模型p(y|x)=p(x,y)/p(x),再利用它分類。

判別模型:由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型。基本思想是有限樣本條件下建立判別函式,不考慮樣本的產生模型,直接研究**模型。

典型的判別模型包括k近鄰、感知機、決策樹、支援向量機等。

由生成模型可以得到判別模型,但由判別模型得不到生成模型。生成模型學習聯合概率分布p(x,y),而判別模型學習條件概率分布p(y|x)。

1.優點:

1)演算法快速、簡單。

2)對大資料集有較高的效率並且是可伸縮性的。

3)時間複雜度近於線性,為o(nkt),適合挖掘大規模資料集。

2.缺點:

1)k是事先給定的,這個k值的選定是非常難以估計的。

2)在該演算法中首先需要根據初始聚類中心來確定乙個初始劃分,然後對初始聚類中心進行優化。這個初始聚類中心的選擇對聚類結果又較大影響,一旦初始值選擇的不好,可能無法得到有效的聚類結果。

3)從k-means演算法中可以看出,該演算法需要不斷地進行樣本分類調整,不斷地計算調整後的新的聚類中心,因此資料量非常大時,演算法的時間開銷也是非常大的。

3.改進:

基於熵值法及動態規劃的改進k-means演算法。

熵值法用來修訂演算法的距離計算公式,以提高演算法的聚類精確程度, 動態規劃演算法用來確定演算法的初始聚類中心。

1.優點:

1)簡單,易於理解,易於實現,無需估計引數,無需訓練。

2) 適合對稀有事件進行分類。

3)特別適合於多分類問題(multi-modal,物件具有多個類別標籤), knn比svm的表現要好。

2.缺點:

1)該演算法在分類時有個主要的不足是,當樣本不平衡時,如乙個類的樣本容量很大,而其他類樣本容量很小時,有可能導致當輸入乙個新樣本時,該樣本的k個鄰居中大容量類的樣本占多數。該演算法只計算「最近的」鄰居樣本,某一類的樣本數量很大,那麼或者這類樣本並不接近目標樣本,或者這類樣本很靠近目標樣本。無論怎樣,數量並不能影響執行結果。

2)該方法的另乙個不足之處是計算量較大,因為對每乙個待分類的文字都要計算它到全體已知樣本的距離,才能求得它的k個最近鄰點。

3)可理解性差,無法給出像決策樹那樣的規則。

4)類別評分不是規則化的。

3.改進策略:

針對以上演算法的不足,演算法的改進方向主要分成了分類效率和分類效果兩方面。

分類效率:事先對樣本屬性進行約簡,刪除對分類結果影響較小的屬性,快速的得出待分類樣本的類別。該演算法比較適用於樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域採用這種演算法比較容易產生誤分。

分類效果:採用權值的方法(和該樣本距離小的鄰居權值大)來改進,han等人於2023年嘗試利用貪心法,針對檔案分類實做可調整權重的k最近鄰居法waknn (weighted adjusted k nearest neighbor),以促進分類效果;而li等人於2023年提出由於不同分類的檔案本身有數量上有差異,因此也應該依照訓練集合中各種分類的檔案數量,選取不同數目的最近鄰居,來參與分類。

是經典的關聯規則資料探勘演算法。

1.優點:

1)簡單、易理解。

2)資料要求低。

2.缺點:

1)在每一步產生候選專案集時迴圈產生的組合過多,沒有排除不應該參與組合的元素。

2)每次計算項集的支援度時,都對資料庫中的全部記錄進行了一遍掃瞄比較,如果是乙個大型的資料庫時,這種掃瞄會大大增加計算機的i/o開銷。

3.改進:

1)利用建立臨時資料庫的方法來提高apriori演算法的效率。

2)fp-tree 演算法。以樹形的形式來展示、表達資料的形態;可以理解為水在不同河流分支的流動過程。

3)垂直資料分布。相當於把原始資料進行行轉列的操作,並且記錄每個元素的個數。

機器學習面試問題 1

常用特徵歸一化 線性函式 xno rm x xmi nxma x xm inx frac x xnorm xma x x min x xm in 零均值歸一化 z x x z frac z x x 使用歸一化可以使得特徵變得更為一致,容易更快地通過梯度下降找到最優解。ps 決策樹不適用歸一化,因為以...

機器學習面試問題2

logistic 邏輯回歸 是一種廣義線性回歸分析模型,是一種分類演算法。通過函式l將w x b對應乙個隱狀態p,p l w x b 然後根據p 與1 p的大小決定因變數的值。l是logistic函式.該模型是典型的數學模型,它服從邏輯斯蒂分布。二項邏輯斯蒂回歸模型是如下的條件概率分布 在這裡,x是...

機器學習面試問題10

線性分類器 模型是引數的線性函式,分類平面是 超 平面 非線性分類器 模型分介面可以是曲面或者超平面的組合。典型的線性分類器有感知機,lda,邏輯斯特回歸,svm 線性核 典型的非線性分類器有樸素貝葉斯 有文章說這個本質是線性的,決策樹,svm 非線性核 線性分類器判別簡單 易實現 且需要的計算量和...