機器學習中涉及到的演算法有哪些(特別篇)

2021-09-13 21:15:17 字數 1048 閱讀 5990

機器學習中最重要的演算法有兩種,第一種是支援向量機演算法,第二種是隨機森林演算法。在這篇文章中我們就重點介紹一下這兩種演算法的相關知識。希望能夠幫助大家更好的理解機器學習。

首先我們介紹一下支援向量機演算法(svm)。就目前而言,支援向量機可能是最受歡迎和最廣泛討論的機器學習演算法之一。而超平面是分割輸入變數空間的一條線。在svm中,選擇一條可以最好地根據輸入變數類別對輸入變數空間進行分割的超平面。在二維中,你可以將其視為一條線,我們假設所有的輸入點都可以被這條線完全的分開。svm學習演算法找到了可以讓超平面對類別進行最佳分割的係數。而支援向量機的超平面和最近的資料點之間的距離被稱為間隔。分開兩個類別的最好的或最理想的超平面具備最大間隔。只有這些點與定義超平面和構建分類器有關。這些點被稱為支援向量,它們支援或定義了超平面。實際上,優化演算法用於尋找最大化間隔的係數的值。而svm也可能是最強大的立即可用的分類器之一,所以十分值得大家去嘗試。

然後我們給大家介紹一下bagging和隨機森林,而隨機森林是最流行和最強大的機器學習演算法之一。它是 bootstrap aggregation(又稱 bagging)整合機器學習演算法的一種。而bootstrap是從資料樣本中估算數量的一種強大的統計方法。比如說平均數。大家從資料中抽取大量樣本,計算平均值,然後平均所有的平均值以便更好的估計真實的平均值。而bagging 使用同樣的方式,不過它估計整個統計模型,最常見的是決策樹。在訓練資料中抽取多個樣本,然後對每個資料樣本建模。當我們需要對新資料進行**時,每個模型都進行**,並將所有的**值平均以便更好的估計真實的輸出值。而隨機森林是對這種方法的一種調整,在隨機森林的方法中決策樹被建立以便於通過引入隨機性來進行次優分割,而不是選擇最佳分割點。所以說,對於每乙個資料樣本建立的模型將會與其他方式得到的有所不同,不過雖然方法獨特且不同,它們仍然是準確的。結合它們的**可以更好的估計真實的輸出值。

那麼我們在遇到問題的時候需要用什麼演算法呢?其實這個問題的答案需要考慮很多方面的因素,比如說資料的大小、質量和特性、可用的計算時間、任務的緊迫性等等。所以說我們在進行學習機器學習的時候還是有做好相關知識的儲備。

機器學習中涉及到的演算法有哪些(下)

首先我們給大家介紹一下boosting 和 adaboost,首先,boosting 是一種整合技術,它試圖整合一些弱分類器來建立乙個強分類器。這通過從訓練資料中構建乙個模型,然後建立第二個模型來嘗試糾正第乙個模型的錯誤來完成。一直新增模型直到能夠完美 訓練集,或新增的模型數量已經達到最大數量。而a...

機器學習中涉及到哪些數學工具?

在機器學習中涉及到很多的工具,其中最重要的當屬數學工具。機器學習涉及到的資料工具總共有三種,分別是線性代數 概率統計和最優化理論。在這篇文章中我們就來詳細給大家介紹一下這些知識,讓大家在日常的機器學習中可以更好地運用到數學工具。然後我們說一下概率統計,在評價過程中,我們需要使用到概率統計。概率統計包...

機器學習涉及到應用(一)

由於現在人工智慧的火熱,接連著也推動了機器學習的高潮,而機器學習是現在很多技術的基礎,比如說資料探勘 統計學習 計算機視覺等等廣泛使用的技術。我們在這篇文章中就給大家介紹一下關於機器學習涉及到的應用,希望這篇文章能夠幫助大家更好的理解機器學習的知識。首先我們給大家介紹一下資料探勘,我們可以認為資料探...