乾貨 基礎機器學習演算法

2022-07-20 19:00:14 字數 2584 閱讀 2278

本篇內容主要是面向機器學習初學者,介紹常見的機器學習演算法,當然,歡迎同行交流。

哲學要回答的基本問題是從**來、我是誰、到**去,尋找答案的過程或許可以借鑑機器學習的套路:組織資料->挖掘知識->**未來。組織資料即為設計特徵,生成滿足特定格式要求的樣本,挖掘知識即建模,而**未來就是對模型的應用。

特徵設計依賴於對業務場景的理解,可分為連續特徵、離散特徵和組合高階特徵。本篇重點是機器學習演算法的介紹,可以分為監督學習和無監督學習兩大類。

無監督學習演算法很多,最近幾年業界比較關注主題模型,lsa->plsa->lda為主題模型三個發展階段的典型演算法,它們主要是建模假設條件上存在差異。lsa假設文件只有乙個主題,plsa假設各個主題的概率分布不變(theta都是固定的),lda假設每個文件和詞的主題概率是可變的。

lda演算法本質可以借助上帝擲骰子幫助理解,詳細內容可參加rickjin寫的《lda資料八卦》文章,淺顯易懂,順便也科普了很多數學知識,非常推薦。

監督學習可分為分類和回歸,感知器是最簡單的線性分類器,現在實際應用比較少,但它是神經網路、深度學習的基本單元。

線性函式擬合資料並基於閾值分類時,很容易受雜訊樣本的干擾,影響分類的準確性。邏輯回歸(logistic regression)利用sigmoid函式將模型輸出約束在0到1之間,能夠有效弱化雜訊資料的負面影響,被廣泛應用於網際網路廣告點選率預估。

邏輯回歸模型引數可以通過最大似然求解,首先定義目標函式l(theta),然後log處理將目標函式的乘法邏輯轉化為求和邏輯(最大化似然概率 -> 最小化損失函式),最後採用梯度下降求解。

相比於線性分類去,決策樹等非線性分類器具有更強的分類能力,id3和c4.5是典型的決策樹演算法,建模流程基本相似,兩者主要在增益函式(目標函式)的定義不同。

線性回歸和線性分類在表達形式上是類似的,本質區別是分類的目標函式是離散值,而回歸的目標函式是連續值。目標函式的不同導致回歸通常基於最小二乘定義目標函式,當然,在觀測誤差滿足高斯分布的假設情況下,最小二乘和最大似然可以等價。

當梯度下降求解模型引數時,可以採用batch模式或者stochastic模式,通常而言,batch模式準確性更高,stochastic模式複雜度更低。

上文已經提到,感知器雖然是最簡單的線性分類器,但是可以視為深度學習的基本單元,模型引數可以由自動編碼(auto encoder)等方法求解。

深度學習的優勢之一可以理解為特徵抽象,從底層特徵學習獲得高階特徵,描述更為複雜的資訊結構。例如,從畫素層特徵學習抽象出描述紋理結構的邊緣輪廓特徵,更進一步學習獲得表徵物體區域性的更高階特徵。

俗話說三個臭皮匠賽過諸葛亮,無論是線性分類還是深度學習,都是單個模型演算法單打獨鬥,有沒有一種集百家之長的方法,將模型處理資料的精度更進一步提公升呢?當然,model ensembel就是解決這個問題。bagging為方法之一,對於給定資料處理任務,採用不同模型/引數/特徵訓練多組模型引數,最後採用投票或者加權平均的方式輸出最終結果。

boosting為model ensemble的另外一種方法,其思想為模型每次迭代時通過調整錯誤樣本的損失權重提公升對資料樣本整體的處理精度,典型演算法包括adaboost、gbdt等。

不同的資料任務場景,可以選擇不同的model ensemble方法,對於深度學習,可以對隱層節點採用dropout的方法實現類似的效果。

介紹了這麼多機器學習基礎演算法,說一說評價模型優劣的基本準則。欠擬合和過擬合是經常出現的兩種情況,簡單的判定方法是比較訓練誤差和測試誤差的關係,當欠擬合時,可以設計更多特徵來提公升模型訓練精度,當過擬合時,可以優化特徵量降低模型複雜度來提公升模型測試精度。

特徵量是模型複雜度的直觀反映,模型訓練之前設定輸入的特徵量是一種方法,另外一種比較常用的方法是在模型訓練過程中,將特徵引數的正則約束項引入目標函式/損失函式,基於訓練過程篩選優質特徵。

模型調優是乙個細緻活,最終還是需要能夠對實際場景給出可靠的**結果,解決實際問題。期待學以致用!

機器學習基礎演算法筆記

緒論 接下來我們來看看在機器學習裡面的一些演算法 1.線性回歸 是利用稱為線性回歸方程序的最小平方函式對乙個或多個自變數和應變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為簡單回歸,大於乙個自變數情況的叫做多元回歸。線性回歸是回歸分析...

機器學習基礎演算法(一)

簡介 k 近鄰法是一種基本分類與回歸方法。基本原理為 存在乙個已知資料集,每個資料集都存在標籤,輸入沒有標籤的新資料後,將新的資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本最相似資料 最近鄰 的分類標籤。一般來說,我們只選擇樣本資料集中前k個最相似的資料,這就是k 近鄰演算法中k...

機器學習 基礎演算法(三)

三 決策樹的用途例項 分成三類 分別標為紫色,黃色和綠色。它們的資訊熵為0.決策樹對訓練屬於有很好的分類能力,但對 未知的測試資料未必有好的分類能力,泛化能力弱,即可能發生過擬合現象。剪枝 隨機森林 a bootstrap aggregation b 從樣本集中重取樣 有重複的 選出n個樣本 c 在...