復現經典 《統計學習方法》第13章 無監督學習概論

2021-10-06 22:21:36 字數 832 閱讀 5573

1.機器學習或統計學習一般包括監督學習、無監督學習、強化學習。

無監督學習是指從無標註資料中學習模型的機器學習問題。無標註資料是自然得到的資料,模型表示資料的類別、轉換或概率無監督學習的本質是學習資料中的統計規律或潛在結構,主要包括聚類、降維、概率估計。

2.無監督學習可以用於對已有資料的分析,也可以用於對未來資料的**。學習得到的模型有函式,條件概率分布,或條件概率分布。

無監督學習的基本想法是對給定資料(矩陣資料)進行某種「壓縮」,從而找到資料的潛在結構,假定損失最小的壓縮得到的結果就是最本質的結構。可以考慮發掘資料的縱向結構,對應聚類。也可以考慮發掘資料的橫向結構,對應降維。還可以同時考慮發掘資料的縱向與橫向結構,對應概率模型估計。

3.聚類是將樣本集合中相似的樣本(例項)分配到相同的類,不相似的樣本分配到不同的類。聚類分硬聚類和軟聚類。聚類方法有層次聚類和均值聚類。

4.降維是將樣本集合中的樣本(例項)從高維空間轉換到低維空間。假設樣本原本存在於低維空間,或近似地存在於低維空間,通過降維則可以更好地表示樣本資料的結構,即更好地表示樣本之間的關係。降維有線性降維和非線性降維,降維方法有主成分分析。

5.概率模型估計假設訓練資料由乙個概率模型生成,同時利用訓練資料學習概率模型的結構和引數。概率模型包括混合模型、率圖模型等。概率圖模型又包括有向圖模型和無向圖模型。

6.話題分析是文字分析的一種技術。給定乙個文字集合,話題分析旨在發現文字集合中每個文字的話題,而話題由單詞的集合表示。話題分析方法有潛在語義分析、概率潛在語義分析和潛在狄利克雷分配。

7.圖分析的目的是發掘隱藏在圖中的統計規律或潛在結構。鏈結分析是圖分析的一種,主要是發現有向圖中的重要結點,包括pagerank演算法。

復現經典 《統計學習方法》第 2 章 感知機

本文是李航老師的 統計學習方法 1 一書的 復現。目錄 參考 wzyonggege 4 wendesi 5 火燙火燙的 6 1 感知機是根據輸入例項的特徵向量對其進行二類分類的線性分類模型 感知機模型對應於輸入空間 特徵空間 中的分離超平面。2 感知機學習的策略是極小化損失函式 損失函式對應於誤分類...

統計學習方法 李航 第12章 統計學習方法總結

分類問題是從例項的特徵向量到類標記的 問題 標註問題 是從觀測序列到標記序列 或狀態序列 的 問題。可以認為分類問題是標註 問題的特殊情況。分類問題中可能的 結果是二類或多類 而標註問題中可能 的 結果是所有的標記序列,其數目是指數級的。感知機 k近鄰法 樸素貝葉斯法 決策樹是簡單的分類方法,具有模...

第1章 統計學習方法概論

學習 定義 如果乙個系統能夠通過執行某個過程改進他的效能,這就是學習。統計學習的物件 資料 目的 對資料進行 和分析 方法 監督學習 非監督學習 半監督學習 強化學習 統計學習的三要素 方法 模型 策略 演算法 輸入變數和輸出變數均為連續變數的 問題稱為回歸問題 輸出變數為有限個離散變數的 問題稱為...