《統計學習方法》學習筆記 第十三章 無監督學習概論

2021-10-14 09:41:36 字數 2419 閱讀 6613

無監督學習是從無標註的資料中學習資料的統計規律或者說內在結構的機器學習,主要包括聚類、降維、概率估計。無監督學習可以用於資料分析或者監督學習的前處理。

無標註資料 u

=u=\

u=模型

①函式 z=g

θ(x)

z=g_\theta(x)

z=gθ​(

x)②條件概率分布 pθ(

z∣x)

p_\theta(z|x)

pθ​(z∣

x)③條件概率分布 pθ(

x∣z)

p_\theta(x|z)

pθ​(x∣

z) x=[

x11⋯x

1n⋮⋮

xm1⋯

xmn]

x= \left[ \begin x_ & \cdots & x_ \\ \vdots & & \vdots \\ x_ & \cdots &x_ \end \right]

x=⎣⎢⎡​

x11​

⋮xm1

​​⋯⋯

​x1n

​⋮xm

n​​⎦

⎥⎤​

每一行對應乙個特徵,每一列對應乙個樣本。

無監督學習的基本想法是對給定資料(矩陣資料)進行某種「壓縮」,從而找到資料的潛在結構。假定損失最小的壓縮得到的結果就是最本質的結構。

①發掘資料的縱向結構,把相似的樣本聚到同類;

②發掘資料的橫向結構,把高維空間的向量轉換為低維空間的向量;

③同時發掘資料的縱向與橫向結構,假設資料由含有隱式結構的概率模型生成得到,從資料中學習該概率模型。

1、聚類(clustering)

硬聚類(hard clustering):乙個樣本只能屬於乙個類;

軟聚類(sort clustering):乙個樣本可以屬於多個類。

函式是硬聚類模型,條件概率分布是軟聚類模型。

例外:co-clustering是聚類演算法,對樣本和特徵都進行聚類,同時發現資料中的縱向橫向結構。

2、降維(dimensionality reduction)

流形(mainfold)

降維可以幫助發現資料中的隱藏的橫向結構。

3、概率模型估計(probability model estimation)

概率模型包括混合模型、概率圖模型等。

概率圖模型包括有向圖模型和無向圖模型。

概率模型表示為條件概率分布pθ(

x∣z)

p_\theta(x|z)

pθ​(x∣

z),z表示隱式結構。模型是混合模型時,z表示成分的個數;模型是概率圖模型時,z表示圖的結構。

特殊情況:z不存在,即pθ(

x∣z)

=pθ(

x)

p_\theta(x|z)=p_\theta(x)

pθ​(x∣

z)=p

θ​(x

)。軟聚類也可以看作是概率模型估計問題,自行根據貝葉斯公式理解。

1、模型

模型①函式 z=g

θ(x)

z=g_\theta(x)

z=gθ​(

x)②條件概率分布 pθ(

z∣x)

p_\theta(z|x)

pθ​(z∣

x)③條件概率分布 pθ(

x∣z)

p_\theta(x|z)

pθ​(x∣

z)2、策略

目標函式的優化:

①聚類:樣本與所屬類別中心距離的最小化;

②降維:樣本從高維空間轉換到低維空間過程中資訊損失的最小化;

③概率模型估計:模型生成資料概率的最大化。

3、演算法

通常是迭代演算法,通過迭代達到目標函式的最優化。

1、聚類

第十四章講述聚類方法,包括層次聚類和k均值聚類。

2、降維

第十六章介紹降維方法的主成分分析,第十五章介紹基礎的奇異值分解。

3、話題分析

話題分析是文字分析的一種技術。給定乙個文字集合,話題分析旨在發現文字集合中每個文字的話題,而話題由單詞的集合表示。

第十七章介紹潛在語義分析;

第十八章介紹概率潛在語義分析;

第十九章介紹基礎的馬爾科夫鏈蒙特卡羅法;

第二十章介紹潛在狄利克雷分配。

4、圖分析(graph analysis)

鏈結分析(link analysis)是圖分析的一種,包括pagerank演算法,主要是發現有向圖中的重要結點。第二十一章介紹pagerank演算法。

《統計學習方法》學習筆記

最近把李航的 統計學習方法 看完了,感覺很不錯,從概論到各個統計方法,由易到難層層推進,每個方法都有詳盡的數學公式推倒,感覺很適合有一定數學功底的人作為機器學習入門來看。可惜本人自幼愚鈍,資質欠佳,以前學的概率論與數理統計的知識都忘得差不多了,看得雲裡霧裡的,前面還好,越到後面越看不明白,遇到不懂的...

統計學習方法 學習筆記(1)

統計學習方法的三要素 模型 策略和演算法,統計學習的物件是資料 方法 模型 策略 演算法。監督學習,也就是利用訓練資料學習乙個模型,在用這個模型對測試樣本進行 而由於訓練資料是由人為提供的,所以稱之為監督學習。1 模型 模型即是假設空間對應的條件概率或者是決策樹函式。2 策略 這裡引入了損失函式和風...

《統計學習方法》筆記(十三) EM

em本身是一種迭代演算法,目的是實現含有隱變數的模型引數的極大似然估計,以及後驗分布的眾數。em也可以用來補全缺失的資料集。在此不做重點考慮 演算法描述 輸入 觀測變數資料y,隱含變數z,聯合分布p y,z theta 條件分布p z y,theta 輸出 模型引數theta 1.選擇引數的初值th...