@分布式機器學習筆記
本人是電子資訊領域相關專業女研究生一枚,研究方向下一代移動通訊網路。本科時期玩心未泯……未深入接觸科研。現階段摸索進入科研狀態,有一定知識基礎,自學機器學習、分布式機器學習相關方法知識~ 比較看重知識的體系性與連貫度,以及自己的思維流等,將較為重要的概念內容記錄於此!
分布式機器學習的必要性:在大資料支撐下,龐大計算機集群,訓練大規模機器學習模型
機器學習基本概念
1)經驗風險、期望風險、結構風險概念區分
參考: 機器學習優化問題-經驗風險、期望風險、結構風險.
2)分類 :學習目標、訓練資料特徵、模型複雜度、模型功能
機器學習基本流程
訓練資料集
分類模型(特徵抽取、引數設計)
誤差函式(依賴於解決的問題)→損失函式(數學性質更好,與誤差函式具有一定的數學關係)
優化演算法
常用損失函式
hinge損失函式
指數損失函式
交叉熵損失函式:假設**模型決定了標籤的概率分布
損失函式對於0-1誤差具有統計一致性,即樣本趨於無窮多時,按照最小化損失函式找到的最優模型也是在0-1誤差意義下的最優模型
常用機器學習模型
1)線性模型、logistic回歸(適合與交叉熵函式進行訓練)
非線性空間複雜組合關係如何由線性組合關係得到?
① 非線性預變換
② 核方法:將原特徵空間對映到高維非線性空間,再在高維空間中構建線性模型
參考: 對核函式(kernel)最通俗易懂的理解.
2)核方法與支援向量機
① 支援向量機:尋找超平面使正例和負例之間的間隔最大
可解決線性可分問題,或通過引入核函式解決線性不可分問題
支援向量機概述見: 支援向量機.
對偶問題的推導見: 拉格朗日乘子與對偶問題.
② 核方法的核心:核函式(非線性對映函式)將原始輸入空間變換成高維空間
*以svm為例,通過φ對映到高維空間的對偶問題與對映函式本身形式無關,而與其內積φ·φ有關→定義核函式為對映到高維空間後的內積
核函式使用條件:對稱函式對應的核矩陣滿足半正定的條件
核函式的解釋及選擇參考:支援向量機的核函式及其選擇.
3)決策樹與boosting
①決策樹
可實現非線性對映,決策樹的複雜程度對應擬合程度
劃分選擇 剪枝處理
②boosting
整合學習思想
4)神經網路
①全連線神經網路
表達能力強大——逼近定理
深度神經網路:模型更新代價大,通常使用小批量隨機梯度下降法
通常找到區域性最優解:模擬退火/多次隨機初始化,網路足夠神時區域性最優性能逼近全域性最優
過擬合:多種方法dropout等……
梯度消失:線性直連等……
②卷積神經網路
適用於處理影象資料
卷積(特徵提取)、池化(特徵壓縮)
③迴圈神經網路
記憶單元的迴圈迭代,對時間序列進行有效建模
lstm,gsu
常用的優化方法 凸優化→非凸優化問題機器學習理論
機器學習泛化誤差及分解
優化誤差(優化演算法迭代t輪後輸出的模型與精確最小化經驗風險的模型的差別)
估計誤差(最小化經驗風險與最小化期望風險)
近似誤差(函式集合中最優期望風險與全域性最優期望風險)
誤差上界
總結
分布式機器學習主要筆記
mahout是hadoop的乙個機器學習庫,主要的程式設計模型是mapreduce 每個企業的資料都是多樣的和特別針對他們需求的。然而,在對那些資料的分析種類上卻沒多少多樣性。mahout專案是實施普通分析計算的乙個hadoop庫。用例包括使用者協同過濾 使用者建議 聚類和分類。mllib 執行在s...
分布式機器學習筆記3
分布式機器學習筆記 基本概述 1 機器學習的優化框架 正則化經驗風險最小化 模型在訓練資料上的平均損失函式值盡可能小 同時對模型複雜度進行懲罰 優化演算法的收斂速率 有效的優化演算法 隨著迭代的進行使輸出模型越來越接近於最優模型 收斂性 e t 趨近於0 收斂速率 一般使用log e t 的衰減速率...
分布式機器學習第3章 分布式機器學習框架
q 需要使用到分布式機器學習有哪三種情形?q 對於計算量太大時的分布式機器學習解決辦法 q 對於訓練資料太多時的分布式機器學習解決辦法 q 對於模型規模太大時的分布式機器學習解決辦法 q 目前分布式機器學習領域的主要矛盾是?q 分布式機器學習的主要組成模組有哪四個?q 分布式機器學習的資料劃分中,對...