數學之美讀書筆記(二)

2021-06-19 02:49:59 字數 1918 閱讀 9074

chapter.6資訊的度量和作用

1.一條資訊的資訊量就等於其不確定性(熵)(越是不確定的事物越是要大量資訊去說明),以位元為衡量單位;資訊是消除不確定性的唯一方法

2.幾乎所有自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程

3.合理利用資訊,而不是玩弄什麼公式和機器學習演算法,是做好搜尋的關鍵。

4.資訊熵---用資訊位元數的先驗概率加權和

5.兩個隨機事件x,y的互資訊為隨機事件x的資訊與x的y條件資訊之差,即衡量了了解y的條件能為減少x的不確定性所能提供的資訊量。互資訊可用於解決詞義的二義性。

6.相對熵用來衡量兩個取值為正數的函式的相似性,其中:

6.1.兩個完全相同的函式相對熵等於零

6.2.相對熵的大小好兩個函式的差異成正比

6.3.相對熵可以度量兩個隨機分布的差異性,但需滿足其概率分布或概率密度函式取值大於零

7.相對上的應用:

7.1.衡量兩個詞 在不同文字中的概率分布以判別它們意思是否相近。

7.2.根據兩篇文章中不同詞的分布判斷它們內容的相似性。

7.3.得到詞頻率---逆向文件頻率(tf-idf)

chapter.7賈里尼克和現代語言處理

1、小學生和中學生其實沒有必要花那麼多時間讀書,而他們的社會經驗、生活能力以及在那時樹立起的志向將幫助他們的一生。

2、中學階段花很多時間比同伴多讀的課程,在大學以後用非常短的時間就可以讀完,因為在大學階段,人的理解力要強得多。

3、學習和教育史乙個人一輩子的過程,要因為興趣而讀書。

4、書本的內容可以早學,也可以晚學,但是錯過了的成長階段卻是無法補回來的。

約翰霍普金斯大學中有世界著名的clsp實驗室,centerfor language and speech processing。

chapter.8布林代數與搜尋引擎的索引

掌握技術的道,而非術,要有積累,分析實驗結果,好的和壞的。

2.布林代數---二進位制邏輯運算

乙個指令週期如果進行32位的bool運算,計算速度可以達到10億次/秒

夏農提出了將所有數**算(+ -* / ^ 開方)轉換成bool運算的方法

3.布林代數對數學的意義類似量子力學對物理學的意義,它將對世界的認識從連續狀態擴充套件到離散狀態

chapter.9圖論和網路爬蟲

1.離散數學:數理邏輯,集合論,圖論,近世代數

2.遍歷演算法包括:(廣度優先演算法bfs:走完乙個節點的所有弧再繼續深入;深度優先演算法dfs:一條線走到底再回頭尋找沒去過的節點)

3.網路爬蟲:從任何乙個網頁出發,用圖的遍歷演算法,自動的訪問到每乙個網頁並把它們存起來。世界上第乙個網路爬蟲是由麻省理工學院(mit)的學生馬休.格雷(matthewgray)在 2023年寫成的。他給他的程式起了個名字叫「網際網路漫遊者」("wwwwanderer")。

4.如果乙個圖能從乙個頂點出發,每條邊不重複的遍歷一遍回到這個頂點,那麼每乙個頂點的度必須為偶數。

chapter.10pagerank---網頁排名技術(加權的民主投票制,用於度量網頁質量)

pagerank演算法的核心是迭代計算每個網頁的權重,然後通過權重的大小對網頁排名。

迭代初始時每個網頁的權重是一樣的,然後通過計算更新每個網頁的權重,規則如下:

1、當乙個網頁被越多的網頁引用時,它的權重越大

2、當乙個網頁的權重越大時,它引用的網頁的權重也隨之變大

3、當乙個網頁引用的網頁越多時,被它引用的網頁獲得的權重就越小

如此反覆迭代,演算法最終會收斂到乙個固定的排名。可以用mapreduce工具進行平行計算。

2.如果在矩陣中,多數的元素並沒有資料,稱此矩陣為稀疏矩陣(sparsematrix),由於矩陣在程式中常使用二維陣列表示,二維陣列的大小與使用的記憶體空間成正比,如果多數的元素沒有資料,則會造成記憶體空間的浪費,為 此,必須設計稀疏矩陣的陣列儲存方式,利用較少的記憶體空間儲存完整的矩陣資訊。

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...

《數學之美》讀書筆記

之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...

數學之美讀書筆記(一)

chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...