機器學習 數學 機器學習涉及的數學知識

2021-08-15 19:19:16 字數 2880 閱讀 6799

簡單總結:機器學習涉及的數學知識有

線性代數,概率論和統計學,多變數微積分,演算法和複雜優化,以及其他等。

原文:在過去幾個月裡,有幾個人聯絡過我,說他們渴望進軍資料科學領域,使用機器學習

(ml) 

技術探索統計規律,並打造資料驅動的完美產品。但是,據我觀察,一些人缺乏必要的數學直覺和框架,無法獲得有用的結果。這是我決定寫這篇部落格文章的主要原因。最近,易用的機器學習和深度學習工具包急劇增加,比如

scikit-learn、

weka、tensorflow、r-caret等。機器學習理論是乙個涵蓋統計、概率、電腦科學和演算法方面的領域,該理論的初衷是以迭代方式從資料中學習,找到可用於構建智慧型應用程式的隱藏洞察。儘管機器學習和深度學習有巨大的發展潛力,但要深入掌握演算法的內部工作原理並獲得良好的結果,就必須透徹地了解許多技術的數學原理。

為什麼擔憂數學?

出於許多原因,機器學習的數學原理很重要,下面重點介紹部分原因:

選擇正確的演算法,這涉及到考慮準確率、訓練時間、模型複雜性、引數數量和特徵數量。

選擇引數設定和驗證策略。

通過理解偏差-方差權衡,識別欠擬合和過擬合。

估算正確的置信區間和不確定性。

您需要多高的數學知識水平?

在嘗試理解諸如機器學習這樣的跨學科領域時,需要考慮的主要問題是,理解這些技術需要多大的數學知識量和多高的數學知識水平。此問題的答案涉及多個維度,而且取決於個人的知識水平和興趣。對機器學習的數學公式和理論發展的研究從未間斷過,一些研究人員正在研究更高階的技術。我將介紹我認為成為機器學習科學家/工程師所需的最低數學知識水平,以及每個數學概念的重要性。

線性代數

:同事skyler speakman

最近說「線性代數是

21 世紀的數學」

,我完全同意

這種說法

。在機器

學習中,

線性代數

無處不在

。要理解

用於機器

學習的優

化方法,

需要掌握

許多主題

,比如主

成份分析

(pca)

、奇異值分解

(svd)

、矩陣特徵分解、

lu 分解、

qr 分解/

因式分解、對

稱矩陣、正交化

/標準正交化、

矩陣運算

、投影、

特徵值和

特徵向量

、向量空

間,以及

範數。關

於線性代

數,令人

驚奇的是

網上有如

此多的資

源。我總

是說,由

於網際網路

上存在大

量資源,

傳統的課

堂教學正

在消亡。

我最喜歡

mit courseware

(gilbert strang 

教授)提供的線性代數課。

概率論和統計學

:機器學習與統

計學並不

是完全不

同的領域

。實際上

,有人最

近將機器

學習定義為『

在mac 

上實踐統計學

』。機器學習需

要的一些

基本的統

計和概率

理論包括

組合學、

概率規則

和公理、

貝葉斯定

理、隨機

變數、方

差和預期

、條件和

聯合分布

、標準分

布(伯努

利、二項

式、多項

式、均勻

和高斯分

布)、矩

母函式、

最大似然估計

(mle)

、先驗和後驗、

最大後驗

概率估計

(map)

,以及取樣方法。

多變數微積分

:一些必要的主

題包括微

積分、偏

微分、向量-

值函式、方向

梯度、海

賽函式、

雅可比行

列式、拉

普拉斯算

子和拉格

朗日分布

演算法和複雜優化

:這對理解機器

學習演算法

的計算效

率和可伸

縮性,以

及利用數

據集的稀

疏性都很

重要。需

要資料結

構(二叉

樹、雜湊

運算、堆

、堆疊等

)、動態

程式設計、隨

機化和次

線性演算法

、圖表、梯度

/隨機下降,以

及原對偶

方法的知識。

其他:包括上述4 個主要領域未涵蓋的其他數學主題。這些主題包括實數和複數分析(集合和數列、拓撲、度量空間、單值和連續函式、極限、柯西核、傅利葉變換),資訊理論(熵、資訊增益),函式空間和數集。

最後,本部落格的主要目的是提供有關數學在機器學習中的重要性的善意建議,以及必要的主題和掌握這些主題所需的有用資源。但是,一些機器學習愛好者不懂數學,很可能發現本文讓人感到洩氣(老實講,這不是我的初衷)。對於初學者,不需要大量數學知識即可開始從事機器學習工作。正如這篇部落格

中介紹的,基本前提是資料分析,您可以不斷學習數學知識,掌握更多技術和演算法。

the mathematics of machine learning

機器學習 數學基礎

scalar 標量 sunspot number dalton minimum exponentiation 指數化 資訊理論 對數函式 log2 sigmod 啟用函式 relu 啟用函式 vector 向量 vector space 向量空間 歐幾里德空間 笛卡爾座標系 極座標系 norm of...

機器學習 數學基礎

前言 適用本人,在學習中記錄要用的數學知識。1.約束最優化問題求解 拉格朗日乘子法和kkt條件 2.何為二次型,二次型怎麼轉化為標準型及其意義,二次型的矩陣表示,通過正交線形變換將二次型變換為標準型 求該正交線性變換和對應的標準型 3.正定矩陣,半正定矩陣 定義 a是n階方陣,如果對任何非零向量x,...

機器學習中的數學

從大學到現在,課堂上學的和自學的數學其實不算少了,可是在研究的過程中總是發現需要補充新的數學知識。learning和vision都是很多種數學的交匯場。看著不同的理論體系的交匯,對於乙個researcher來說,往往是非常exciting的enjoyable的事情。不過,這也代表著要充分了解這個領域...