大資料開發之機器學習總結(數學知識)(三)

2021-10-25 05:06:46 字數 2416 閱讀 5727

在大資料開發業務場景中,如果是對資料做聚合或者明細統計等,則使用大資料的框架結合邏輯**即可。

如果需要有更高層級的需求,例如做資料**或者分類,則需要使用機器學習的技術來處理了。

如果需要更進一步讓演算法模型可以自我學習提公升,則需要用到人工智慧的技術。

機器學習是一門涉及到知識點非常廣泛的計算機學科,概率統計,線性代數,高等數學,各類程式語言下的演算法框架等等。

在現有大資料處理框架下,spark和flink對機器學習都有做支援,但相對更成熟的是spark的mllib模組。如果公司技術團隊有使用spark經驗,則學習和使用成本會大幅降低,唯一需要補充的就是演算法知識和api呼叫。

概念,簡單來說,向量可以看成一串數字,不過每個數字都有自己的含義。如

這裡可以看成是年齡,身高,退休年齡,工資。直接使用這樣的形式表達含義。

也可以結合多維空間座標來理解向量,如(1,2,3)可以理解為x,y,z軸的座標。當然實際開發時,往往不侷限於3個座標,往往是多個指標。就類似kylin框架的多維立方體。

向量距離(可以理解為相似度)。向量是乙個點,則向量和向量之間存在距離的概念。而測量距離在數學領域有很多方法,經典的歐幾里德距離,但也還有曼哈頓距離和余弦距離。

有時候又將向量點之間距離稱之為相似度,但注意,相似度和距離其實是相反的,距離越近,相似度越高。距離越大,相似度越小

在機器學習演算法中,相似度的計算是很核心的乙個要素。如knn分類,kmeans聚類,協同過濾推薦演算法等,本質就是在計算事物和事物之間的相似度,即特徵向量之間的相似程度。

余弦相似度距離

曼哈頓距離

注意,這幾個距離的適用場景不太一樣,如果需要計算相似度,則余弦法更合適,如果計算空間距離也就是典型的2個特徵之間距離,歐幾里德方法更合適

矩陣可以看作是多個向量之間的集合

從這個角度來看,矩陣方便對向量做批量運算,如需要對上述矩陣每個向量都乘以5,可以直接表達成 矩陣*5 =》c * 5

矩陣簡單計算

矩陣在**中,可以理解為多維陣列,其實就可以看成是2維陣列,每乙個畫素的資訊就儲存在乙個二維陣列的元素中。

其實在機器學習,人工智慧等尖端領域,數學計算會大量用到矩陣,程式設計**則會大量用到迭代(類似遞迴的思想)

聯合概率 p(a^b) :多件事情都發生的可能性!

條件概率

這個概率公式可以看出,如果p(b|a)不好計算,可以反過來,拿p(a|b),很多時候可能就有不一樣的結果。

在概率統計中,有先驗概率和後驗概率,很多時候後驗概率不好計算,可以利用這個公式,用先驗概率換個思路得出

伯努利方程

概率密度

概率指事件隨機發生的機率,對於均勻分布函式,概率密度等於一段區間(事件的取值範圍)的概率除以該段區間的長度,它的值是非負的,可以很大也可以很小

概率分布

其實就是類似初中學習的線性方程,因變數和自變數之間關係是一次方關係

從程式設計角度來看,演算法可以分為資料結構演算法和 數學演算法

數學結構演算法,常常可以在各個框架中接觸到,如排序演算法,如貪心演算法等等

數學演算法,則往往是數學演算法用於程式設計問題解決,這類場景在機器學習和人工智慧應用最廣泛和普遍

大學畢業之後,如果打算學習機器學習,但是忘記了線性代數,概率統計,高等數學的,可以準備撿起來了

機器學習常用數學定義總結

是在有線性約束條件的情況下,最小化或最大化多個變數的二次函式 函式的最高次為二次的函式 二次規劃是一種特殊的非線性規劃。是在有線性約束的條件下,優化多個變數的線性函式。與二次規劃的區別在於,目標函式為線性函式。是實質相同但從不同角度提出不同提法的一對問題。1 定義 設m是n階方陣,如果對任何非零向量...

機器學習之相關數學基礎

1 函式 2 極限 3 導數 4 極值和最值 5 泰勒級數 6 梯度 7 梯度下降 1 基本概念 2 行列式 3 矩陣 4 最小二乘法 5 向量的線性相關性 1 事件 2 排列組合 3 概率 4 貝葉斯定理 5 概率分布 6 期望和方差 7 引數估計 1 p2 概率論與貝葉斯先驗 2 p3 矩陣和線...

資料開發 機器學習

什麼是機器學習?機器學習要解決哪些問題?從複雜和海量的資料中獲得洞見 機器學習的步驟有哪些?機器學習的基本概念,原理以及基本方法以及基礎能力 基本概念 屬性 值 特徵 訓練集和測試集 驗證集 特徵提取 特徵變換 模型 模型是觀察的簡化 監督和非監督學習 監督學習 半監督學習 無監督學習 強化學習監督...