w1,
w2,.
..,w
n ,它們在一篇特定網頁中的詞頻分別是tf
1,tf
2,..
.,tf
n 。那麼,這個查詢和該網頁的相關性就是: tf
1+tf
2+..
.+tf
n 。
上例中,詞「的」佔了總詞頻的80%以上,而它對確定網頁的主題幾乎沒有用。這種詞叫「應刪除詞」(stopwords),也就是說在度量相關性是不應考慮它們的頻率。在漢語中,應刪除詞還有「是」、「和」、「中」、「地」、「得」等等幾十個。
此外,在漢語中,「應用」是乙個很通用的詞,而「原子能」是個很專業的詞,後者在相關性排名中比前者重要。因此需要給漢語中的每乙個詞個乙個權重,這個權重的設定必須滿足下面兩個條件:
乙個詞**主題能力越強,權重就越大,反之,權重就越小。
應刪除詞的權重應該是零。 l
og(d
/dw)
。 我們假定中文網頁數是d=10億,應刪除詞「的」在所有的網頁中都出現,即dw
=10億
,那麼它的id
f=lo
g(10億
/10億)
=log
(1)=
0 。假如專用詞「原子能」在兩百萬個網頁中出現,即dw
=200
萬 ,則它的權重id
f=lo
g(500)
=6.2
。又假定通用詞「應用」,出現在五億個網頁中,它的權重id
f=lo
g(2)
,則只有 0.7。
也就只說,在網頁中找到乙個「原子能」的匹配相當於找到九個「應用」的匹配。利用 idf,上述相關性計算公式就由詞頻的簡單求和變成了加權求和,即 tf
1∗id
f1+t
f2∗i
df2+
...+
tfn∗
idfn
。 上例中,該網頁和」原子能的應用」的相關性為0.0161,其中「原子能」貢獻了0.0126,而」應用」只貢獻了0.0035。這個比例和我們的直覺比較一致了。 tf
/idf
(ter
mfre
quen
cy/i
nver
sedo
cume
ntfr
eque
ncy)
的概念被公認為資訊檢索中最重要的發明。在搜尋、文獻分類和其他相關領域有廣泛的應用。
搜尋引擎工作的數學原理簡單概括如下:
搜尋引擎原理
乙個搜尋引擎由搜尋器 索引器 檢索器和使用者介面等四個部分組成。1.搜尋器 搜尋器的功能是在網際網路中漫遊,發現和蒐集資訊。它常常是乙個電腦程式,日夜不停地執行。它要盡可能多 盡可能快地蒐集各種型別的新資訊,同時因為網際網路上的資訊更新很快,所以還要定期更新已經蒐集過的舊資訊,以避免死連線和無效連線...
搜尋引擎工作原理
搜尋引擎優化的主要任務之一就是提高 的搜尋引擎友好性,因此,搜尋引擎優化的每乙個環節都會與搜尋引擎工作流程存在必然的聯絡,研究搜尋引擎優化實際上就是對搜尋引擎工作過程進行逆向推理。因此,學習搜尋引擎優化應該從了解搜尋引擎的工作原理開始。搜尋引擎的主要工作包括 頁面收錄 頁面分析 頁面排序 及 關鍵字...
搜尋引擎工作原理
搜尋引擎工作原理 爬行和抓取 預處理 排名 爬行和抓取 1,是通過蛛蛛程式來實現的,蛛蛛主要是通過鏈結來抓取所有頁面的.所以要想讓蛛蛛盡量的抓取頁面,必須要吸引蛛蛛 優化 2,為了避免重複爬行和抓取 搜尋引擎建立了乙個位址庫用來儲存已經抓取的頁面 位址庫中的url 大多數是蛛蛛獲取到的,當然也有一些...