資訊的度量和作用
資訊熵條件熵
互資訊相對熵
賈里尼克
布林代數和搜尋引擎
二進位制的布林代數
索引:搜尋引擎為什麼可以在如此短的時間內找如此巨量的內容?建立索引。
最簡單的索引是用乙個很長的二進位制數表示乙個關鍵字是否出現在一篇文獻中;
有多少篇文獻,就有多少位數,每一位對應一篇文獻,1代表相應的文獻有這個關鍵字,0代表沒有。
同時包含兩個關鍵字的時候,進行與運算就可以了。
網路爬蟲和圖論:
廣度優先搜尋:一層一層往外訪問;
深度優先搜尋:一條路走到底,再乙個乙個節點回來,一條路走到底,迴圈。
使用bfs還是dfs?
理論上講,能在大致相同的時間裡爬下整個靜態網際網路上的內容。但是工程上兩個假設:不考慮時間因素,網際網路靜態不變,這都是無法做到的。這個問題因該被定義為如何在有限時間裡最多地爬下最重要的網頁。
握手成本
《數學之美》讀書筆記
通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...
《數學之美》讀書筆記
之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...
數學之美讀書筆記(一)
chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...