最大熵模型,最初在吳軍博士《數學之美》看到。那節題目為《不要把雞蛋放在乙個籃子裡——最大熵模型》。吳軍談到最大熵原理在人們日常生活中不自覺用到.
比如擲乙個色子,六面均勻的情況下6出現的概率為1/6,這幾乎是所有人都會給出的答案,但為什麼是1/6?其實其中蘊含了最大熵原理。吳軍談到這個模型挺複雜,搞了好長時間最終有科學家以指數形式表達出此模型,並給出最優化求解。
看了西瓜書沒有講最大熵,因此本節簡單的將最大熵的原理,模型,學習等做簡要筆記。
在概率模型中,對某個問題的所有可能的模型中,熵最大的模型是最好的。這叫做最大熵原理,這是乙個指導我們選擇最優模型時的乙個準則。
用約束條件確定模型的集合,然後用最大熵原理從中選擇最優模型。對隨機變數x來說,其熵為: h(
p)=−
∑p(x
)⋅lo
gp(x
) 0≤
h(p)
≤log
|x|
舉例1:擲乙個色子,六面均勻的情況下1-6出現的概率均為1/6;
舉例2:因不均勻,該色子的3出現概率為1/2,則此時1-6出現的概率為1-2與4-6為1/10,3為1/2。即我們充分考慮已有事實,然後將未知事實等概率化(熵最大)。
假設滿足所有約束條件的模型集合為c,則集合中條件熵最大的模型稱為最大熵模型。
可轉化為具體求解對數似然函式極大化或者對偶函式極大化問題。
最大熵模型更一般的形式: pw
(y|x
)=1z
w(x)
exp(
∑i=1
nwif
i(x,
y))
f(x,
y)為特徵函式,描述某乙個事實,為乙個約束。
邏輯回歸、最大熵模型均屬於對數線性模型。
其學習均可歸結為以似然函式為目標函式的最優化問題。通常用迭代演算法求解。
這時的目標函式為光滑的凸函式,保證可找到全域性最優解。
· 改進迭代尺度法(improved iterative scaling,iis)
· 牛頓法/擬牛頓法
· 梯度下降法
統計學習方法 最大熵模型實現
usr bin env python3 coding utf 8 import time import math import random import numpy as np import pandas as pd from collections import defaultdict from...
《統計學習方法》學習筆記5 關於最大熵模型學習
部落格 如何理解拉格朗日乘子法?解密svm系列 一 關於拉格朗日乘子法和kkt條件 解密svm系列 二 svm的理論基礎 深入理解拉格朗日乘子法 lagrange multiplier 和kkt條件 適用條件 應用於凸函式的帶約束的組合優化問題。kkt條件 關於帶等式以及不等式的約束條件的凸函式優化...
統計學習方法筆記1 統計學習方法概論
統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...