數學之美 閱讀筆記(四)

2021-08-17 22:24:03 字數 986 閱讀 7526

這一部分主要講的是關於搜尋引擎的一些原理。乙個搜尋引擎大致需要做這麼幾件事:

簡歷快速有效的索引;

根據相關性對網頁進行準確的排序;

實現乙個網路爬蟲在工程上需要考慮很多細節,大致有這麼幾點:

頁面分析 & url 提取

現在的網際網路,大多網頁是用指令碼語言生成的了,因此需要瀏覽器核心工程師來開發網路爬蟲的解析程式,讓爬蟲模擬瀏覽器執行乙個網頁然後才能得到裡面的內容進行爬取分析。

現在來看下 pagerank 的計算方法pr

(a)=

pr(b

)+pr

(c)

pr(a

)=pr

(b)l

k(b)

+pr(

c)lk

(c)

然而有一些網頁很「自私」,因為它們沒有出鏈,對於這樣的網頁 pagerank 強行給它們加上對所有網頁的出鏈數(包括自己)。

當然還有一種可能性就是使用者瀏覽完乙個網頁後,直接通過輸入鏈結跳轉到其它網頁。現在給這種隨機事件乙個概率

α 。那麼最終 pr 值的計算如下:pr

(pi)

=α∑p

j∈mp

ipr(

pj)l

k(pj

)+(1

−α)n

當然這麼做是建立在已證明了這樣做能收斂的基礎上的,具體證明這裡不闡述,涉及到了馬爾可夫過程,即最終可以將問題轉化為證明乙個馬爾可夫過程的收斂。

布林代數基於二進位制,是簡單到不能再簡單的運算了,它只有兩個元素:true,false;基本運算只有:and,or,not 三種(實際上都能轉化成 「與非」 and-not 運算)。別看布林代數如此簡單的形式,所有的數**算和邏輯運算都能轉換成二值的布林運算。例如要搜關於原子能應用的文獻,但不想知道如何製造原子彈,那麼可以通過原子能 and 應用 and (not 原子彈)的布林運算來實現。也就是說根據建立好的索引和使用者搜尋的關鍵字就能查詢到要反饋給使用者的內容了。

《架構之美》閱讀筆記四

今天我閱讀了 架構之美 第五章面向資源的架構在web中,這一章講到現在我們過分強調了軟體和服務,而卻忽視了資料,現在大多數組織機構更容易在web上找到資訊,而不是在他們自己的系統中。web在很大程度上是因為它增大了資訊共享的可能性,同時也降低了門檻。面向資源的架構的標識是向命名的資源發起邏輯請求的過...

《數學之美》讀書筆記(四)

關於分詞 統計語言模型方法進行分詞 最好的一種分詞方法應該保證分完詞後這個句子出現的概率最大 如果窮舉所有可能的分詞方法並計算每種可能性下句子的概率,計算量相當大。可以看成動態規劃問題dynamic programming,並利用維特比viterbi解碼演算法快速找到最佳分詞。孫茂松教授的貢獻 解決...

「數學之美」筆記

有一天乙個哥們,也許是個賭徒,向棣莫弗提了乙個和賭博相關的問題 a b 兩人在賭場裡賭博,a b 各自的獲勝概率是p,q 1 p p,q 1 pp,q 1 p,賭 n nn 局。兩人約定 若 a 贏的局數 x np x npx np,則 a 付給賭場 x n p x npx np元 若 x xx n...