數學之美 記錄

2022-08-25 10:24:19 字數 1830 閱讀 6600

資訊的度量 資訊熵 entropy 用h表示

資訊的作用在於消除不確定性

互資訊兩件事相關性的度量,在了解其中乙個的前提下,對消除另乙個不確定性提供的資訊量

夏農第一定理

乙個資訊,任何編碼的長度都不小於它的資訊熵

pagerank演算法核心思想:

如果乙個網頁被很多其他網頁所鏈結,說明它受到普遍的承認和信賴。

有限狀態機:

乙個有向圖,包括一些狀態(節點)和連線這些狀態的有向弧。每乙個有限狀態機有乙個開始狀態和乙個終止狀態,以及若干中間狀態。每一條弧上帶有從上乙個狀態進入下乙個狀態的條件。如果輸入的符號可以從狀態機的開始狀態經過中間狀態,走到終止狀態,那麼這條位址就有效,否則無效。

最大熵原理

不要把雞蛋放到乙個籃子裡

布隆過濾器

布隆過濾器過濾垃圾郵件的工作原理:對於每乙個電子郵件位址,用8個不同的隨機數產生器產生8個資訊指紋(f1,f2,...f8)。再用乙個隨機數產生器把這8個資訊指紋對映到布隆過濾器的8個二進位制位,並把這8個位置的二進位制全部設定為1。

建立乙個小的白名單,儲存那些有可能被誤判的郵件位址。

貝葉斯網路

貝葉斯網路是多路徑形式的馬爾科夫鏈,也是有向的。

貝葉斯網路的訓練分為兩個部分:先生成網路的結構,再計算節點之間的權重即概率。

條件隨機場是無向的貝葉斯網路

卡茲退避法(katz backoff)

對於頻率超過一定閾值的詞,它們的概率估計就是它們在語料庫中的相對頻度,對於頻率小於這個閾值的詞,它們的概率估計就小於他們的相對頻度,出現次數越少,頻率下調越多。對於未看見的詞,也給予乙個比較小的概率(即下調得到的頻率總和),這樣所有詞的概率估計都平滑了。這就是卡茲退避法(katz backoff)。

維特比演算法(viterbi algoritm)

針對籬笆網路尋找最短路徑的動態規劃演算法。它之所以重要,是因為凡是使用隱含馬爾科夫模型描述的問題都可以用它來解碼。

1.從點s出發,對於第乙個狀態x1的各個節點,不妨假定有n1個,計算出s到他們的距離d(s,x1i),其中x1i代表任意狀態1的節點。因為只有一步,所以這些距離都是s到他們各自的最短距離。

2.對於第二個狀態x2的所有節點,要計算出從s到他們的最短距離。d(s,x2i)=min_i=1,n1_d(s,x1j)+d(x1j,x2i),由於j有n1種可能性,需要一一計算,然後找到最小值。這樣對於第二個狀態的每個節點,需要n1次乘法計算。假定這個狀態有n2個節點,把s這些節點的距離都算一遍,就有o(n1*n2)次運算。

3.按照上述方法從第二個狀態走到第三個狀態一直走到最後乙個狀態,這樣就得到整個網路從頭到尾的最短路徑。

em演算法——上帝的演算法:

在一般性的問題中如果有很多觀測值,可以讓計算機不斷迭代來學習乙個模型。首先,根據現有的模型,計算出觀測資料輸入到模型中的結果,這個過程為期望值計算過程(expectation,e過程);接下來,重新計算模型引數,以最大化期望值(文字分類中是最大化d和-d),該過程為最大化過程(maximization,m過程)。統稱為em演算法。

邏輯回歸模型(logistic regression)

將乙個事件出現的概率適應到一條邏輯曲線(logistic curve)上。

邏輯曲線是一條s型曲線,其特點是開始變化快,逐漸減慢,最後飽和。邏輯自回歸的好處是它的變數範圍從負無窮到正無窮,而值域範圍限制在0-1之間。因為值域的範圍在0-1之間,這樣邏輯回歸函式就可以和乙個概率分別聯絡起來了。因為自變數範圍在負無窮到正無窮之間,它就可以把訊號組合起來,不論組合成多大或者多小的值,最後依然能得到乙個概率分布。

分治演算法:

將乙個複雜的問題,分成若干簡單的子問題進行解決。然後,對子問題的結果進行合併,得到原有問題的解。

mapreduce的原理來自於分治演算法。

數學之美4

第7章 賈里尼克和現代語言處理 第8章 簡單之美 布林代數和搜尋引擎 道與術 事情的原理是道,具體的做事方法叫術。追求的術的人,一生工作辛苦,只有掌握道,才能游刃有餘。追求術的人,往往是希望走捷徑,希望有乙個模型能把事情畢其功於一役,但這是不現實的。1.布林代數 就是真 假的組合四則運算 與 或 非...

數學之美6

第12 章 有限狀態機和動態規劃 地圖與本地搜尋的核心技術 1 1 位址分析和有限狀態機 1.智慧型手機導航最關鍵的三個問題 a.利用衛星定位 b.位址識別 c.根據使用者輸入的起點和終點,在地圖上規劃最短路徑或者最快路徑 2.位址分析和有限狀態機 位址的識別上下文有關文法相對簡單,最有效的是有限狀...

《數學之美》摘錄

不定期過來加幾句 2016 12 12之前部分 翻譯這件事兒之所以能達成,僅僅是因為不同的文字系統在記錄資訊上的能力是等價的。資訊的冗餘是資訊保安的保障。羅馬數字編碼方式 i代表1,v代表5,左側為減,右側為加,所以iv就是5 1 4,vii就是5 2 7。阿拉伯數字的真正發明人是印度人,只是由阿拉...