初級演算法班(1) 機器學習相關概念

2021-09-14 02:28:28 字數 2645 閱讀 1784

寫在前面:這是初級演算法版第一次作業的第二部分,同樣由於時間原因準備的不充分,使用的是csdn的富文字編輯器,今天結束後會熟悉一下markdown編輯器,希望下次至少在格式上有所改進。

一.有監督學習

1) 從有標記的訓練資料中推導出**函式

2) 有標記的訓練資料是指每個訓練例項都包括輸入和期望的輸出

3) 常用來做分類和回歸

4)例子:老師給你乙份有答案的習題集讓你去訓練,學完之後再給你乙份類似的習題集讓你去做檢驗你是否學會了

二.無監督學習

1)只給訓練資料,不給標籤。自己尋找資料的模型和規律,推斷結論。物以類聚,人以群分,我們拿到了很多資料,但是不知道問題的答案,希望計算機給我們提供思路

2)典型的無監督學習就是聚類演算法

3)例子:老師正常上課,也不畫重點,上完課後讓你去考試

三.泛化能力

1)學習到的模型對未知資料的**能力,通常用泛化誤差來描述

2)例子:舉一反三的能力,老師教會你1+1=2,問你2+3你如果說出等於5就說明泛化能力好,如果等於x(x≠5)就說明不好,其中|x-5|越大說明泛化能力越差,|x-5|就是通常說的泛化誤差

四.過擬合

1)學習時選擇的模型包含的引數太多(往往比真模型還要複雜),導致模型對已知資料擬合效果很好,但是對未知資料的**效果很差的現象

2)過擬合的重點是對訓練集的擬合效果很好,對未知資料效果不好,如果單單只是對未知資料效果不好並不叫過擬合,一般模型越複雜則功能越強大,因為模型越複雜則變數越多,能描述的東西也就越多

3)例子:老師上課教文言文理解,為了讓你加深記憶老師說了一些典故,介紹了一下背景知識,然後說了一下文言文怎麼去理解,然後你課後把老師說的這些背景知識,文言文古代現在怎麼對應都記住了,然後別人問你這篇文言文的東西,包括一些背景之類的你都能答出來,但是別人換了一篇文言文讓你翻譯你就可能只能翻譯跟上個文言文共同的東西,效果很差。因為你把時間花在了了解背景知識的上,沒有把主要精力放在文言文理解上,說的簡單點就是沒有抓住重點,沒有找到事件背後的規律,死記硬背。過擬合的原因就是模型太複雜,也就是把一些雜訊也當作特徵一起學習了。

4)解決方法:

五.欠擬合

1)學習到的模型不是很好,對未知資料的擬合效果很差

2)例子:老師上課教九九乘法表,你不認真聽課只聽了4x4

之前的,所以4x4之後的你就不會了。欠擬合是在訓練集上效果就不好,就更不要說測試集和未知資料了,一般原因就是模型過於簡單。

3)解決方法:增加資料特徵數(變數變多),新增高次多項式特徵(次數變高),減小正則化係數

六.偏差

1)訓練得到的模型的輸出**結果和真實結果的差距叫做偏差

2)偏差大和欠擬合基本上可以等價來看,可以認為偏差大小是模型擬合效果的評判標準,欠擬合則模型的偏差大,當然過擬合也可能偏差很大(因為偏差是跟真實資料之間的差距)

七.方差

1)方差指乙個特定訓練集訓練得到的函式,與所有訓練集得到平均函式的差的平方再取期望,方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響。

2)通俗來說方差表示的是模型對訓練集的敏感度,不同訓練集得到的模型的**結果都差不多,說明該模型的方差就很小

3)一般來說過擬合方差一定很大,因為過擬合模型很複雜,描述資料過於準確了,不同的訓練集得到的模型之間的差距會很大

八.交叉驗證

1)樣本資料量足夠時,隨機將資料集分成三部分,分別為訓練集,驗證集和測試集。訓練集用來訓練模型,驗證集用來選擇模型,測試集用於最終對學習方法的評估。一般選擇對驗證集有最小**誤差的模型。如果發現a的驗證集誤差比b小,但a的測試集誤差比b大,此時仍然選擇a模型。驗證集是我們的選擇標準,測試集只是模仿我們的未知資料,讓我們提前對模型的擬合效果有個感性的認識。

2)交叉驗證主要用在資料不足的情況,基本思想就是重複使用資料,把給定的資料進行切分,將切分的資料集組合為不同的訓練集和測試集(資料量很小所以就沒有驗證集了),用訓練集來訓練模型,用測試集來評估模型**的好壞。在此基礎上可以得到多組不同的訓練集和測試集,某次訓練集中的某樣本在下次可能成為測試集中的樣本,即所謂「交叉」

3)簡單交叉驗證:我們隨機的將樣本資料分為兩部分(比如: 70%的訓練集,30%的測試集),然後用訓練集來訓練模型,在測試集上驗證模型及引數。接著,我們再把樣本打亂,重新選擇訓練集和測試集,繼續訓練資料和檢驗模型。最後我們選擇損失函式評估最優的模型和引數

4)s折交叉驗證:把樣本資料隨機的分成s份,每次隨機的選擇s-1份作為訓練集,剩下的1份做測試集。當這一輪完成後,重新隨機選擇s-1份來訓練資料。若干輪(小於s)之後,選擇損失函式評估最優的模型和引數。

5)留一交叉驗證:是s折交叉驗證的特例,s等於樣本數n,這樣對於n個樣本,每次選擇n-1個樣本來訓練資料,留乙個樣本來驗證模型**的好壞。此方法主要用於樣本量非常少的情況。計算量會很大

機器學習初級重要概念

機器學習初級重要概念 資料的歸一化計算 z score 歸一化 min max歸一化 動態學習率與動量的優化演算法 adadelta 動量adam rmsprop 神經網路的fp和bp的計算與推導 啟用函式是什麼?如何計算?導數是什麼?輸入數值如何進行計算輸出值 如何求得任意的引數的梯度 下一輪的引...

機器學習 相關概念

一開始我是自學的機器學習的相關知識,因為要參加比賽,有點急於求成,網上到處找教程,學了很多,也了解了很多演算法,但是脈絡沒搞清楚,後面也越來越沒有信心 機器學習有很多相關的概念,我覺得在準備深入學習這些東西之前一定要把概念層次弄清楚,要不然很容易陷入誤區,所以在這裡把一些相關的概念和脈絡理一下 1....

機器學習相關概念

機器學習相關概念 定義 t e p 機器學習分類 有監督學習 回歸 regression linear regression 分類 classification 判別模型 bayes公式 先驗概率,似然函式,證據,後驗概率 beta分布 概率的概率分布 生成模型 聯合概率 邊緣概率 距離說明什麼是判...