第7章 賈里尼克和現代語言處理
第8章 簡單之美:布林代數和搜尋引擎
道與術:事情的原理是道,具體的做事方法叫術。追求的術的人,一生工作辛苦,只有掌握道,才能游刃有餘。追求術的人,往往是希望走捷徑,
希望有乙個模型能把事情畢其功於一役,但這是不現實的。
1. 布林代數
就是真、假的組合四則運算(與、或、非)
2. 索引
最簡單的索引結構:用乙個很長的二進位制數來表示關鍵字是否出現在這些文獻中。乙個詞在哪些文章中出現過,就把那些文章對應的位標為1。具體應用時,
還有根據文章的重要性等指標,建立不同級別的索引,因為索引太大了。如果有100億個網頁,沒條索引的長度就是100億位。對於網際網路的搜尋引擎來講,每乙個網頁就是乙個文獻。
改進:通過分布式的方式將龐大的索引儲存到不同的伺服器上(根據網頁的序號分成很多份,分別儲存在不同的伺服器上,每當接受乙個查詢的時候,就分發給許許多多的伺服器,他們同時並行處理)
問題:如何向你的奶奶解釋搜尋引擎?
每個**就像是圖書館裡的一本書,我們不可能在圖書館書架上一本本的找,而是要通過搜尋卡片找到他的位置,然後直接去書架上拿。
第9章 圖論與網路爬蟲
1. 圖論:
廣度優先搜尋:
深度優先搜尋
尤拉七橋問題:若乙個圖能夠從乙個頂點出發,每條邊不重複的遍歷一遍回到這個頂點,那麼每一頂點的度必須為偶數。
2. 網路爬蟲
網頁當做節點,超連結當做連線節點的鏈路
工程要點:
(1). bfs還是dfs:
使用bfs(在有限的時間裡最多地爬下最重要的網頁,而這些重要的網頁主要是首頁)
實際的網路爬蟲都是乙個由成百上千甚至成千上萬臺伺服器組成的分布式系統。
(2). 頁面的分析和url的提取
之前使用html語言寫的網頁,url很容易提取;但如今很多使用指令碼語言,需要模擬瀏覽器執行乙個網頁才能解析
如何解決不同伺服器重複訪問表
數學之美系列 4 怎樣度量資訊
發表者 吳軍,google 研究員 前言 google 一直以 整合全球資訊,讓人人能獲取,使人人能受益 為使命。那麼究竟每一條資訊應該怎樣度量呢?資訊是個很抽象的概念。我們常常說資訊很多,或者資訊較少,但卻很難說清楚資訊到底有多少。比如一本五十萬字的中文書到底有多少資訊量。直到 1948 年,夏農...
數學之美6
第12 章 有限狀態機和動態規劃 地圖與本地搜尋的核心技術 1 1 位址分析和有限狀態機 1.智慧型手機導航最關鍵的三個問題 a.利用衛星定位 b.位址識別 c.根據使用者輸入的起點和終點,在地圖上規劃最短路徑或者最快路徑 2.位址分析和有限狀態機 位址的識別上下文有關文法相對簡單,最有效的是有限狀...
《數學之美》摘錄
不定期過來加幾句 2016 12 12之前部分 翻譯這件事兒之所以能達成,僅僅是因為不同的文字系統在記錄資訊上的能力是等價的。資訊的冗餘是資訊保安的保障。羅馬數字編碼方式 i代表1,v代表5,左側為減,右側為加,所以iv就是5 1 4,vii就是5 2 7。阿拉伯數字的真正發明人是印度人,只是由阿拉...