中文搜尋引擎技術揭密 排序技術 二

2021-03-31 16:01:38 字數 878 閱讀 2739

pagerank的原理類似於科技**中的引用機制:誰的**被引用次數多,誰就是權威。說的更白話一點:張三在談話中提到了張曼玉,李四在談話中也提到張曼玉,王五在談話中還提到張曼玉,這就說明張曼玉一定是很有名的人。在網際網路上,鏈結就相當於「引用」,在b網頁中鏈結了a,相當於b在談話時提到了a,如果在c、d、e、f中都鏈結了a,那麼說明a網頁是最重要的,a網頁的pagerank值也就最高。

如何計算pagerank值有乙個簡單的公式 :

1、鏈結指向a的網頁越多,a的級別越高。即a的級別和指向a的網頁個數成正比,在公式中表示,n越大, a的級別越高;

2、鏈結指向a的網頁,其網頁級別越高, a的級別也越高。即a的級別和指向a的網頁自己的網頁級別成正比,在公式中表示,網頁n級別越高, a的級別也越高;

3、鏈結指向a的網頁,其鏈出的個數越多,a的級別越低。即a的級別和指向a的網頁自己的網頁鏈出個數成反比,在公式中現實,網頁n鏈出個數越多,a的級別越低。

每個網頁有乙個pagerank值,這樣形成乙個巨大的方程組,對這個方程組求解,就能得到每個網頁的pagerank值。網際網路上有上百億個網頁,那麼這個方程組就有上百億個未知數,這個方程雖然是有解,但計算畢竟太複雜了,不可能把這所有的頁面放在一起去求解的。對具體的計算方法有興趣的朋友可以去參考一些數值計算方面的書。

每當你開啟乙個網頁,都可以很清楚的看見此網頁的pagerank值。當然這個值是乙個大概數字。

據google技術負責人介紹,google除了用pagerank衡量網頁的重要程度以外,還有其它上百種因素來參與排序。其它搜尋引擎也是如此,不可能按照某一種規則來進行搜尋結果的排序。

中文搜尋引擎技術揭密 中文分詞

中搜 http www.zhongsou.com 等。目前在中文搜尋引擎領域,國內的搜尋引擎已經和國外的搜尋引擎效果上相差不遠。之所以能形成這樣的局面,有乙個重要的原因就在於中文和英文兩種語言自身的書寫方式不同,這其中對於計算機涉及的技術就是中文分詞。什麼是中文分詞 眾所周知,英文是以詞為單位的,詞...

中文搜尋引擎技術揭密 中文分詞

什麼是中文分詞 眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合起來才表示乙...

中文搜尋引擎技術揭密 中文分詞

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述乙個意思。例如,英文句子i am a student,用中文則為 我是乙個學生 計算機可以很簡單通過空格知道student是乙個單詞,但是不能很容易明白 學 生 兩個字合起來才表示乙個詞。把中文的漢...