常用機器學習演算法

2021-08-14 18:59:16 字數 2082 閱讀 4103

1、演算法學習:監督式/非監督式/半監督式

(1) 監督式學習

工作機制:這個演算法由乙個目標變數或結果變數(或因變數)組成。這些變數由已知的一系列預示變數(自變數)**而來。利用這一系列變數,我們生成乙個將輸入值對映到期望輸出值的函式。這個訓練過程會一直持續,直到模型在訓練資料上獲得期望的精確度。監督式學習的例子有:回歸、決策樹、隨機森林、k – 近鄰演算法、邏輯回歸等。

(2)非監督式學習

工作機制:在這個演算法中,沒有任何目標變數或結果變數要**或估計。這個演算法用在不同的組內聚類分析。這種分析方式被廣泛地用來細分客戶,根據干預的方式分為不同的使用者組。非監督式學習的例子有:關聯演算法和 k – 均值演算法。

【強化學習:這個演算法訓練機器進行決策。它是這樣工作的:機器被放在乙個能讓它通過反覆試錯來訓練自己的環境中。機器從過去的經驗中進行學習,並且嘗試利用了解最透徹的知識作出精確的商業判斷。 強化學習的例子有馬爾可夫決策過程。】

2、常見機器學習演算法名單

線性回歸 邏輯回歸 決策樹 svm 樸素貝葉斯 k最近鄰演算法 k均值演算法

隨機森林演算法 降維演算法 gradient boost adaboost 演算法

3、簡介

(1)線性回歸:線性回歸通常用於根據連續變數估計實際數值(房價、呼叫次數、總銷售額等)。我們通過擬合最佳直線來建立自變數和因變數的關係。這條最佳直線叫做回歸線,並且用 y= a *x + b 這條線性等式來表示。在這個等式中:y:因變數;a:斜率;x:自變數;b :截距;係數 a 和 b 可以通過最小二乘法獲得。

理解線性回歸的最好辦法是回顧一下童年。假設在不問對方體重的情況下,讓乙個五年級的孩子按體重從輕到重的順序對班上的同學排序,你覺得這個孩子會怎麼做?他(她)很可能會目測人們的身高和體型,綜合這些可見的引數來排列他們。這是現實生活中使用線性回歸的例子。實際上,這個孩子發現了身高和體型與體重有一定的關係,這個關係看起來很像上面的等式。找出最佳擬合直線 y=0.2811x+13.9 。已知人的身高,我們可以通過這條等式求出體重。

線性回歸的兩種主要型別是一元線性回歸和多元線性回歸。一元線性回歸的特點是只有乙個自變數。多元線性回歸的特點正如其名,存在多個自變數。找最佳擬合直線的時候,你可以擬合到多項或者曲線回歸。這些就被叫做多項或曲線回歸。

(2)邏輯回歸:法可根據已知的一系列因變數估計離散數值(比方說二進位制數值 0 或 1 ,是或否,真或假)。簡單來說,它通過將資料擬合進乙個邏輯函式來預估乙個事件出現的概率。因此,它也被叫做邏輯回歸。因為它預估的是概率,所以它的輸出值大小在 0 和 1 之間(正如所預計的一樣)。

簡單例子:假設你的朋友讓你解開乙個謎題。這只會有兩個結果:你解開了或是你沒有解開。想象你要解答很多道題來找出你所擅長的主題。這個研究的結果就會像是這樣:假設題目是一道十年級的三角函式題,你有 70%的可能會解開這道題。然而,若題目是個五年級的歷史題,你只有30%的可能性回答正確。這就是邏輯回歸能提供給你的資訊。

從數學上看,在結果中,機率的對數使用的是**變數的線性組合模型。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence

ln(odds) = ln(p/(1-p))

logit§ = ln(p/(1-p)) = b0+b1x1+b2x2+b3x3…+bkxk

在上面的式子裡,p 是我們感興趣的特徵出現的概率。它選用使觀察樣本值的可能性最大化的值作為引數,而不是通過計算誤差平方和的最小值(就如一般的回歸分析用到的一樣)。

(3)決策樹:通常被用於分類問題。它同時適用於分類變數和連續因變數。

(4)支援向量機:分類方法。將每個資料在n維空間中用點標出(n是你所有的特徵總數),每個特徵的值是乙個座標的值。

舉個例子,如果我們只有身高和頭髮長度兩個特徵,我們會在二維空間中標出這兩個變數,每個點有兩個座標(這些座標叫做支援向量)。現在,我們會找到將兩組不同資料分開的一條直線。兩個分組中距離最近的兩個點到這條線的距離同時最優化。上面示例中的黑線將資料分類優化成兩個小組,兩組中距離最近的點(圖中a、b點)到達黑線的距離滿足最優條件。這條直線就是我們的分割線。接下來,測試資料落到直線的哪一邊,我們就將它分到哪一類去。

常用機器學習演算法 一

馬上就要找工作了,把自己學習使用過的常用機器學習演算法整理出來,權當做筆記了。先從簡單的演算法開始吧,首先是k近鄰。k近鄰簡單 直觀 給定乙個訓練樣本集,對於新的輸入例項,在訓練資料集中找到與該例項最臨近的 k個例項,這 k個例項中的多數屬於某個類,就把該輸入樣例分為這個類。演算法 三要素 k值選擇...

常用的機器學習演算法總結

一 線性回歸 1 核心思想 這可能是機器學習中最簡單的演算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用回歸演算法。因此,當你需要 乙個正在執行的過程未來的值時,你可以使用回歸演算法。然而,當特徵冗餘,即如果存在多重共線性 multicollinearity 時,線性回歸就不太穩定。...

python 常用機器學習演算法 KNN

knn 演算法核心 defknnclassify0 inx,dataset,labels,k inx 待分類向量 dataset 樣本資料 labels 標籤類別k值 前k個最近鄰居 datasetsize dataset.shape 0 diffmat tile inx,datasetsize,1...