逃避搜尋引擎的法眼

2021-06-06 14:29:47 字數 2459 閱讀 2769

發布日期:2004-05-11為什麼我們要逆著常理來這樣做?

如果你是乙個站長,估計你總在千方百計的讓你的**能在搜尋引擎裡面找到,並且能夠在搜尋引擎裡面排名靠前,但有時,你可能並沒登陸過任何搜尋引擎,可卻莫名其妙的發現可以通過它搜尋到你的**。或許有的主頁內容你樂於世人皆知,但有的內容你卻不願被洞察、索引。可能你要求使用者驗證,但這並不能逃避搜尋引擎的搜尋,只要在搜尋引擎裡面搜尋到你的這個網頁,不用密碼照樣可以登陸。並且簡單的加密常常容易被攻破。難道使用資料庫嗎?這不但消耗寶貴**空間資源,對於一些簡單的站點,又無法實現。怎麼辦呢?搜尋引擎不是個瞞不講理,橫行霸道的入室盜賊。如何把搜尋引擎拒之門外呢?

探索一下搜尋引擎的的原理

首先,我們要知道搜尋引擎的工作原理。網路搜尋引擎主要由網路機械人(robot,這個是全文的關鍵)、索引資料庫和查詢服務三個部分組成。只要被網頁機械人找到的網頁,就會在搜尋引擎的資料庫中建立索引。利用查詢客戶端,就一定可以找到你的網頁。所以下面的關鍵是研究這個網路機械人。索引資料庫和查詢服務的原理我們就不詳細分析了。

逃避搜尋引擎的法眼

作為搜尋引擎的開發者,同樣留給了網路管理員或網頁製作者提供了些方法來限制網路機械人的行動:

當robots訪問乙個**(比如時,首先會像乙個大宅子的陌生訪問者一樣,先檢視檢視該宅子是否同意它進入。如果不同意,它就悄然無聲的走掉;如果同意,它會看看主人只允許它進入那些房間。網路機械人首先檢查該**中是否存在這個檔案,如果找不到這個檔案,那麼,機械人就會橫衝直入,查遍它需要查詢的資訊。如果機械人找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。當然,如果該檔案的內容為空的話,那麼也就相當於沒有找到檔案一樣,大膽行事。記住robots.txt檔案應該放在**根目錄下。

robots.txt檔案中的記錄通常以一行或多行user-agent開始,後面加上若干disallow行,詳細情況如下:

user-agent:

該值用於描述搜尋引擎robot的名字,不同的搜尋引擎是有不同的名字的,在"robots.txt"檔案中,如果有多條user-agent記錄說明有多個robot會受到該協議的限制,對這個檔案來說,如果你需要限制robots,那麼至少要有一條user-agent記錄。如果該項的值設為*,則該協議對任何機器人均有效,在"robots.txt"檔案中," user-agent: *  "這樣的記錄只能有一條。

disallow :

該值用於限制robot訪問到的乙個url,這個url可以是一條完整的路徑,也可以是部分的,任何以disallow 開頭的url均不會被robot訪問到。例如「disallow: /hacker」對/hacker.html 和/hacker/index.html都不允許搜尋引擎訪問,而「disallow: /hacker/」則robot照樣可以訪問/hacker.html,而不能訪問/hacker/index.html。任何一條disallow記錄為空,也就是說在多條disallow記錄下,只要有一條是寫成「disallow:」說明該**的所有內容都允許被訪問,在"/robots.txt"檔案中,至少要有一條disallow記錄。

下面是robot.txt的一些例子,只要把下列的任何乙個**儲存為robots.txt,然後傳到指定位置,就可以實現逃避搜尋引擎的法眼:

user-agent: *

disallow: /

例2. 允許所有的robot訪問:

user-agent: *

disallow:

例3. 禁止某個搜尋引擎的訪問:

user-agent: badbot

disallow: /

例4. 允許某個搜尋引擎的訪問:

例5. 乙個簡單例子:

在這個例子中,該**有三個目錄對搜尋引擎的訪問做了限制,即搜尋引擎不會訪問這三個目錄。需要注意的是對每乙個目錄必須分開宣告,而不要寫成 "disallow: /cgi-bin/ /bbs/"。user-agent:後的* 具有特殊的含義,代表"any robot",所以在該檔案中不能有"disallow: /bbs/*" or "disallow: *.gif"這樣的記錄出現.

user-agent: *

disallow: /cgi-bin/

disallow: /bbs/

disallow: /~private/

結束語:是不是這樣設定後,搜尋引擎馬上就找不到我們所限制的網頁呢?不是的,就像文章開始前說過,網路機械人是定期發出,一旦在索引資料庫裡面做了記錄,就要等下次更新資料庫時才有可能生效。乙個快捷的辦法,就是馬上到搜尋引擎上去登出你的網頁,可這個也是需要等待幾天的。如果對十分重要的網頁,只要更換個目錄或檔名就可以了。

最後不放心的話就再給保密網頁上上一到密碼驗證的保險,讓你高枕無憂。 

搜尋引擎 索引

正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...

MySQL搜尋引擎程式 mysql搜尋引擎

mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...

lycos搜尋引擎 常用的搜尋引擎都有哪些特點?

1 基於字詞結合的資訊處理方式,巧妙解決了中文資訊的理解問題,極大地提高了搜尋的準確性。2 智慧型相關度演算法。採用了基於內容和基於超鏈分析相結合的方法進行相關度評價,能夠客觀分析網頁所包含的資訊,從而最大限度保證了檢索結果相關性。4 智慧型性 可擴充套件的搜尋技術保證最快最多的收集網際網路資訊。擁...