監督學習
監督(supervised)是指訓練資料集中的每個樣本均有乙個已知的輸出項(類標label)
輸出變數為連續變數的**問題稱為回歸問題,回歸演算法有
簡單線性回歸,多元線性回歸,lasson回歸,ridge回歸,elastictnet
輸出變數為有限個離散變數的**問題稱為分類問題,分類演算法有
決策樹,knn,svm,perception&neunetwork,bayes,logisticregression
無監督學習
人們給機器一大堆沒有分類標記的資料,讓機器可以對資料分類、檢測異常等
1、聚類(kmeans)
2、降維(pca,lda)
半監督學習
一部分樣本有標籤,一部分樣本無標籤,處理方法:聚類假設
聚類假設:將有標記的樣本和無標記的樣本混合在一起,通過特徵之間的相似性將樣本分為若干組,使得組內的相似性較大,組間的相異性較大,將樣本點都進行分組,組內根據少數服從多數的原則對沒有標記的樣本新增標記,至此,所有未標記的資料都可以分配標記。
主動學習
純半監督學習/直推學習
強化學習
是機器學習的乙個重要分支,主要用來解決連續決策問題
遷移學習
小資料問題
個性化問題
模型+策略+演算法
模型模型通常分為決策函式(非概率模型)或條件概率分布(概率模型)
策略評估模型的好壞,使用損失函式(誤差函式、目標函式)度量
演算法機器學習的演算法就是求解最優化問題的演算法
首先明確:
1、該問題是否為機器學習問題
2、該問題是機器學習問題的哪方面問題
當拿到資料後從下面兩個角度思考:
1、資料角度:根據具備的資料看能夠做監督學習or無監督學習or半監督學習
2、業務角度:根據業務部門指定的業務方向,整理資料,建模
特徵工程:
1、對特徵處理
2、對資料處理
資料+選擇的演算法==》模型
通過測試集測試模型,給定最終模型
有新資料,通過模型給出測試結果
模型不但在訓練集上表現效果很好,對於新資料的適應能力也很好
泛化能力的表現:過擬合和欠擬合
欠擬合模型在訓練集和測試集的效果都很差
出現原因:模型過於簡單
出現場景:模型訓練初期
解決方法:
1、增加模型的多項式的項
2、增加模型多項式的次數
3、減少正則罰項
過擬合模型在訓練集效果很好,但是測試集的效果很差
出現原因:模型過於複雜,資料不純、訓練資料量太少
出現場景:模型訓練中後期
解決方法:
1、針對過於複雜的特性,增加正則罰項
2、重新清洗資料
3、增加訓練資料量
4、對樣本抽樣或特徵抽樣
5、dropout–隨即丟棄一些點(深度學習)
奧卡姆剃刀原則
如果具有相同泛化誤差的模型,選擇較為簡單的模型(防止過擬合)
正則化正則項,目的是為了降低模型複雜度。
l1正則項: +lambda*|w|
l2正則項: +lambda*|w|**2
交叉驗證
1、簡單交叉驗證
2、k則交叉驗證,將資料集平均隨機切分為k等分,將其中乙份資料作為測試集,其餘作為訓練集,訓練k個魔心,得到平均準確率。
3、留一驗證,特殊的k則交叉驗證
機器學習導論
策略結構風險 正則化項 交叉驗證 混淆矩陣 roc曲線 回歸問題與分類問題本質上都是要建立對映關係 0 1損失 平方損失 絕對損失 對數損失 模型f x 關於訓練資料集的平均損失記為經驗損失 remp 期望風險remp是模型關於聯合分布的期望損失,經驗風險remp是模型關於訓練集的平均損失。根據大數...
機器學習導論二
監督學習 訓練資料集每個樣本均有個已知的輸出項。分類演算法 決策樹演算法 knn貝葉斯演算法 svm演算法 lr演算法 回歸 線性回歸 lasso回歸 ridge回歸 無監督學習 非監督學習 降維 pca lda 半監督學習 了解 一部分有類別標籤,一部分沒有類別標籤。強化學習 了解 遷移學習 了解...
機器學習導論(一)
改變了思維方式 資料重要性 資料資源 資料資產 增值 方 資料分析 統計學 抽樣 資料科學 大資料 計算智慧型 複雜演算法 決策方面 基於目標決策 基於資料決策 業務方面 基於業務的資料化 基於資料的業務化 產業競合 以戰略為中心 以資料為中心 資料量大 tb pb zb hdfs分布式檔案系統 資...