常用的機器學習演算法總結

2021-08-22 04:49:42 字數 3023 閱讀 9491

一、線性回歸

1、核心思想

這可能是機器學習中最簡單的演算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用回歸演算法。因此,當你需要**乙個正在執行的過程未來的值時,你可以使用回歸演算法。然而,當特徵冗餘,即如果存在多重共線性(multicollinearity)時,線性回歸就不太穩定。

2、優缺點分析

【優點】:

【缺點】:

3、適用場景

二、邏輯回歸

1、核心思想

2、優缺點分析

【優點】:

【缺點】:

3、適用場景

三、knn

1、核心思想

1. 計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離,馬氏距離等);

2. 對上面所有的距離值進行排序;

3. 選前k個最小距離的樣本;

4. 根據這k個樣本的標籤進行投票,得到最後的分類類別。

如何選擇乙個最佳的k值,這取決於資料。一般情況下,在分類時較大的k值能夠減小雜訊的影響。但會使類別之間的界限變得模糊。乙個較好的k值可通過各種啟發式技術來獲取,比如,交叉驗證。另外雜訊和非相關性特徵向量的存在會使k近鄰演算法的準確性減小。

2、優缺點分析

【優點】:

【缺點】:

3、適用場景

k近鄰演算法具有較強的一致性結果。隨著資料趨於無限,演算法保證錯誤率不會超過貝葉斯演算法錯誤率的兩倍。對於一些好的k值,k近鄰保證錯誤率不會超過貝葉斯理論誤差率。

四、決策樹

1、核心思想

決策樹是一種簡單但廣泛使用的分類器,它通過訓練資料構建決策樹,對未知的資料進行分類。決策樹的每個內部節點表示在乙個屬性上的測試,每個分枝代表該測試的乙個輸出,而每個樹葉結點存放著乙個類標號。 在決策樹演算法中,id3基於資訊增益作為屬性選擇的度量,c4.5基於資訊增益比作為屬性選擇的度量,cart基於基尼指數作為屬性選擇的度量。

決策樹很少被單獨使用,但是不同的決策樹可以組合成非常高效的演算法,例如隨機森林或梯度提公升樹演算法。

2、優缺點分析

【優點】:

【缺點】:

3、適用場景

五、支援向量機(svm)

1、核心思想

支援向量機把分類問題轉化為尋找分類平面的問題,並通過最大化分類邊界點距離分類平面的距離來實現分類。

2、優缺點分析

【優點】:

【缺點】:

3、適用場景

六、bp神經網路

1、核心思想

神經網路中包含著神經元之間連線的權重。這些權重是平衡的,逐次對資料點進行學習。當所有的權重都被訓練好後,如果需要對新給定的資料點進行回歸,神經網路可以被用於**分類結果或乙個具體數值。利用神經網路,可以對特別複雜的模型進行訓練,並且將其作為一種黑盒方法加以利用,而在訓練模型之前,我們無需進行不可**的複雜特徵工程。通過與「深度方法」相結合,甚至可以採用更加不可**的模型去實現新任務。例如,最近人們已經通過深度神經網路大大提公升了物體識別任務的結果。深度學習還被應用於特徵提取這樣的非監督學習任務,也可以在人為干預更少的情況下,從原始影象或語音中提取特徵。

2、優缺點分析

【優點】:

【缺點】:

3、適用場景

七、adaboost

1、核心思想

adaboost目的就是從訓練資料中學習一系列的弱分類器或基本分類器,然後將這些弱分類器組合成乙個強分類器。

2、優缺點分析

【優點】:

【缺點】:

八、隨機森林、gbdt、xgboost

1、隨機森林

隨機森林是一種決策樹的整合方法。它能夠同時解決具有大規模資料集的回歸問題和分類問題,還有助於從數以千計的輸入變數中找出最重要的變數。隨機森林具有很強的可伸縮性,它適用於任何維數的資料,並且通常具有相當不錯的效能。此外,還有一些遺傳演算法,它們可以在具有最少的關於資料本身的知識的情況下,很好地擴充套件到任何維度和任何資料上,其中最簡單的實現就是微生物遺傳演算法。然而,隨機森林學習的速度可能會很慢(取決於引數設定),並且這種方法不能迭代地改進生成模型。

2、gbdt

回歸樹類似決策樹,使用葉子節點的平均值作為判定的結果。如果不是葉子節點,那麼就繼續向下尋找。gbdt幾乎可用於所有的回歸問題,亦可以適用於二分類問題。gbdt使用新生成的樹來擬合之前的樹擬合的殘差。

3、xgboost

這是乙個近年來出現在各大比賽的大殺器,奪冠選手很大部分都使用了它。高準確率高效率高併發,支援自定義損失函式,既可以用來分類又可以用來回歸。可以像隨機森林一樣輸出特徵重要性,因為速度快,適合作為高維特徵選擇的一大利器。在目標函式中加入正則項,控制了模型的複雜程度,可以避免過擬合。支援列抽樣,也就是隨機選擇特徵,增強了模型的穩定性。對缺失值不敏感,可以學習到包含缺失值的特徵的**方向。另外乙個廣受歡迎的原因是支援並行,速度槓槓的。用的好,你會發現他的全部都是優點

機器學習 特徵選擇常用演算法總結

指從巨大的特徵集中選取出對模型有利的特徵子集,減小特徵維度,訓練資料規模。在機器學習的實際應用中,特徵數量往往比較多,其中可能存在冗餘特徵,對模型不利的特徵,特徵之間也可能存在相互依賴,容易導致如下的後果 1 特徵個數越多,分析特徵 訓練模型所需的事件就越長 2 特徵個數越多,容易引起 維度災難 模...

常用機器學習演算法

1 演算法學習 監督式 非監督式 半監督式 1 監督式學習 工作機制 這個演算法由乙個目標變數或結果變數 或因變數 組成。這些變數由已知的一系列預示變數 自變數 而來。利用這一系列變數,我們生成乙個將輸入值對映到期望輸出值的函式。這個訓練過程會一直持續,直到模型在訓練資料上獲得期望的精確度。監督式學...

機器學習演算法總結

機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。嚴格的定義 機器學習是一門研究機器獲取新知識和新技能...