通訊六要素
s是可見的 - 信源
o是不可見的(輸出) - 信宿
通訊就是要根據觀測到的o恢復出s
對於翻譯問題,漢譯英:英語是s,漢語是o,根據s推斷o
tf:詞頻
idf:逆文字頻率指數
以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。
根據最大熵原則:希望找到乙個符合所有邊緣分布並使熵達到最大的模型,數學上可以證明,這個模型就是指數函式。
詳見:最大熵模型、邏輯回歸模型都是指數模型,訓練方法類似:em演算法(通用迭代演算法gis、改進的迭代演算法iis)
最大熵模型的數學推導(參考[2])
對於給定的訓練資料集t=以及特徵函式fi(x,y),i=1,2,3...n,最大熵模型的學習等價於約束的最優化問題:
引入朗格朗日運算元w,定義拉格朗日函式l(p,w)
最優化的原始問題:
對偶問題是:
由於l(p,w)是p的凸函式,原始問題的解與對偶問題的解是等價的。這裡通過求對偶問題的解來求原始問題的解。
第一步求解內部極小化問題,記為:
通過微分求導,得出p的解是:
第二步求外部的極大化問題:
最後的解記為:
第三步可以證明對偶函式的極大化等價於第一步求解出的p的極大似然估計,所以將最大熵模型寫成更一般的形式.
模擬k-means演算法:
hmm和crf的區別
上述模型引數眾多,因此只能找出其中一些邊緣分布,例如p(x_1), p(x_2, y_3)等,再根據最大熵原則找到乙個滿足所有邊緣分布並且使熵最大的模型。
這個模型就是指數函式
p問題:
非多項式問題:
在非多項式問題中,有一類稱之為非確定的多項式問題(np問題)
p不等於np
如果乙個問題,能在多項式複雜度的時間內證實乙個答案正確與否,則稱為np問題(無論當前是否有多項式複雜度演算法)
npc:np-complete問題,所有np問題都可以在多項式時間內規約到npc問題,如果npc問題找到了多項式演算法,則np=p
計算複雜度至少是npc甚至是更大的問題,稱之為np-hard問題
a中元素為去加權詞頻(例如tf-idf)
2023年8月15日 夜
於南湖畔
《數學之美》讀書筆記
之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...
數學之美讀書筆記(一)
chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...
數學之美讀書筆記(二)
chapter.6資訊的度量和作用 1.一條資訊的資訊量就等於其不確定性 熵 越是不確定的事物越是要大量資訊去說明 以位元為衡量單位 資訊是消除不確定性的唯一方法 2.幾乎所有自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程 3.合理利用資訊,而不是玩弄什麼公式和機器學習演算法,是做好搜...