搜尋引擎反作弊與冪律分布

2021-07-11 21:45:00 字數 393 閱讀 4690

由於搜尋引擎普遍基於pagerank在做,有一種很常見的手法就是給乙個網頁設定足夠多的入鏈和出鏈,以提高網頁的搜尋權重。搜尋引擎針對這種作弊方式,會用到「冪律分布」來識別。即,網頁的出鏈和入鏈是否滿足以下規律:少量鏈結擁有大量流量,大量鏈結擁有少量流量。也可以更通俗的說,是否符合二八定理。如果乙個網頁的出鏈和入鏈不滿足這個規律,那存在作弊行為的可能性就會比較大。

冪律分布的函式表示,「冪函式」,屬於初等函式,很簡單:y=x^a(即,y等於x的a次方)。

為了有乙個更形象的描述,可以看下這張從網上找到的圖:

這兩種分布只有在雙對數座標體系中才能看出明顯區別,很遺憾沒有找到圖示。

搜尋引擎反作弊之 鏈結作弊與隱藏作弊

本文節選自 這就是搜尋引擎 核心技術詳解 第八章 8.2 鏈結作弊 所謂 鏈結作弊 是 擁有者考慮到搜尋引擎排名中利用了 鏈結分析 技術,所以通過操縱頁面之間的鏈結關係,或者操縱頁面之間的鏈結錨文字,以此來增加鏈結排序因子的得分,並影響搜尋結果排名的作弊方法。常見的鏈結作弊方法眾多,此節簡述幾種比較...

搜尋引擎反作弊之 整體技術思路

如上所述,目前搜尋引擎作弊手段五花八門,層出不窮,作為應對方的搜尋引擎,也相應調整技術思路,不斷有針對性地提出反作弊的技術方案,所以如果整理反作弊技術方案,會發現技術方法很多,理清思路不易。儘管如此,如果對大多數反作弊技術深入分析,會發現在整體技術思路上還是有規律可循。從基本的思路角度,可以將反作弊...

搜尋引擎對作弊的判斷條件

對作弊的判斷條件 1 在網頁源 的任意位置,故意加入與網頁內容不相關的關鍵詞。2 在網頁源 的任意位置,故意重複某些關鍵詞。即使與網頁內容相關的關鍵詞,故意重複也被認為是作弊。3 在網頁中加入搜尋引擎可識別但使用者看不到的隱藏文字。無論是使用同背景色文字,超小字號文字,文字隱藏層還是濫用alt 都屬...