禁止搜尋引擎收錄的方法

1. 什麼是robots.txt檔案?

搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個**時，會首先會檢查該**的根域下是否有乙個叫做 robots.txt的純文字檔案，這個檔案用於指定spider在您**上的抓取範圍。您可以在您的**中建立乙個robots.txt，在檔案中宣告該**中不想被搜尋引擎收錄的部分或者指定搜尋引擎只收錄特定的部分。

請注意，僅當您的**包含不希望被搜尋引擎收錄的內容時，才需要使用robots.txt檔案。如果您希望搜尋引擎收錄**上所有內容，請勿建立robots.txt檔案。

2. robots.txt檔案放在**?

robots.txt檔案應該放置在**根目錄下。舉例來說，當spider訪問乙個**（比如時，首先會檢查該**中是否存在這個檔案，如果 spider找到這個檔案，它就會根據這個檔案的內容，來確定它訪問許可權的範圍。

** url相應的 robots.txt的 url

robots.txt

4. 禁止搜尋引擎跟蹤網頁的鏈結，而只對網頁建索引

如果您不想搜尋引擎追蹤此網頁上的鏈結，且不傳遞鏈結的權重，請將此元標記置入網頁的部分：

5. 禁止搜尋引擎在搜尋結果中顯示網頁快照，而只對網頁建索引

要防止所有搜尋引擎顯示您**的快照，請將此元標記置入網頁的部分：

禁止baiduspider抓取**上所有、禁止或允許baiduspider抓取**上的某種特定格式的檔案可以通過設定robots實現，請參考「robots.txt檔案用法舉例」中的例10、11、12。

7. robots.txt檔案的格式

8. url匹配舉例

allow或disallow的值

url匹配結果

/tmp

yes/tmp

/tmp.html

yes/tmp

/tmp/a.html

yes/tmp

/tmp

no/tmp

/tmphoho

no/hello*

/hello.html

yes/he*lo

/hello,lolo

yes/heap*lo

/hello,lolo

nohtml$

/tmpa.html

yes/a.html$

/a.html

yeshtm$

/a.htmlno

9. robots.txt檔案用法舉例

例1. 禁止所有搜尋引擎訪問**的任何部分user-agent: *

disallow: /

例2. 允許所有的robot訪問

(或者也可以建乙個空檔案 "/robots.txt")

user-agent: *

allow: /

例3. 僅禁止baiduspider訪問您的**user-agent: baiduspider

disallow: /

例4. 僅允許baiduspider訪問您的**user-agent: baiduspider

allow: /

user-agent: *

disallow: /

例5. 僅允許baiduspider以及googlebot訪問user-agent: baiduspider

allow: /

user-agent: googlebot

allow: /

user-agent: *

disallow: /

例6. 禁止spider訪問特定目錄

在這個例子中，該**有三個目錄對搜尋引擎的訪問做了限制，即robot不會訪問這三個目錄。需要注意的是對每乙個目錄必須分開宣告，而不能寫成 "disallow: /cgi-bin/ /tmp/"。

user-agent: *

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

例7. 允許訪問特定目錄中的部分urluser-agent: *

allow: /cgi-bin/see

allow: /tmp/hi

allow: /~joe/look

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

例8. 使用"*"限制訪問url

禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的url(包含子目錄)。

user-agent: *

disallow: /cgi-bin/*.htm

例9. 使用"$"限制訪問url

僅允許訪問以".htm"為字尾的url。

user-agent: *

allow: /*.htm$

disallow: /

例10. 禁止訪問**中所有的動態頁面user-agent: *

disallow: /*?*

僅允許抓取網頁，禁止抓取任何。

例12. 僅允許baiduspider抓取網頁和.gif格式

允許抓取網頁和gif格式，不允許抓取其他格式

例13. 僅禁止baiduspider抓取.jpg格式user-agent: baiduspider

10. robots.txt檔案參考資料

html author's guide to the robots exclusion protocol

the original 1994 protocol description, as currently deployed

the revised internet-draft specification, which is not yet completed or implemented

本文**：

禁止搜尋引擎收錄的方法

禁止搜尋引擎收錄的方法

禁止搜尋引擎收錄的方法

禁止搜尋引擎收錄的方法

相關推薦