1. 什麼是robots.txt檔案?
搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個**時,會首先會檢查該**的根域下是否有乙個叫做 robots.txt的純文字檔案,這個檔案用於指定spider在您**上的抓取範圍。您可以在您的**中建立乙個robots.txt,在檔案中宣告 該**中不想被搜尋引擎收錄的部分或者指定搜尋引擎只收錄特定的部分。
請注意,僅當您的**包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄**上所有內容,請勿建立robots.txt檔案。
2. robots.txt檔案放在**?
robots.txt檔案應該放置在**根目錄下。舉例來說,當spider訪問乙個**(比如 時,首先會檢查該**中是否存在這個檔案,如果 spider找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。
** url相應的 robots.txt的 url
robots.txt
robots.txt
robots.txt
robots.txt
4. 禁止搜尋引擎跟蹤網頁的鏈結,而只對網頁建索引
如果您不想搜尋引擎追蹤此網頁上的鏈結,且不傳遞鏈結的權重,請將此元標記置入網頁的 部分:
5. 禁止搜尋引擎在搜尋結果中顯示網頁快照,而只對網頁建索引
要防止所有搜尋引擎顯示您**的快照,請將此元標記置入網頁的部分:
禁止baiduspider抓取**上所有、禁止或允許baiduspider抓取**上的某種特定格式的檔案可以通過設定robots實現,請參考「robots.txt檔案用法舉例」中的例10、11、12。
7. robots.txt檔案的格式
8. url匹配舉例
allow或disallow的值
url匹配結果
/tmp
/tmp
yes/tmp
/tmp.html
yes/tmp
/tmp/a.html
yes/tmp
/tmp
no/tmp
/tmphoho
no/hello*
/hello.html
yes/he*lo
/hello,lolo
yes/heap*lo
/hello,lolo
nohtml$
/tmpa.html
yes/a.html$
/a.html
yeshtm$
/a.htmlno
9. robots.txt檔案用法舉例
例1. 禁止所有搜尋引擎訪問**的任何部分user-agent: *
disallow: /
例2. 允許所有的robot訪問
(或者也可以建乙個空檔案 "/robots.txt")
user-agent: *
allow: /
例3. 僅禁止baiduspider訪問您的**user-agent: baiduspider
disallow: /
例4. 僅允許baiduspider訪問您的**user-agent: baiduspider
allow: /
user-agent: *
disallow: /
例5. 僅允許baiduspider以及googlebot訪問user-agent: baiduspider
allow: /
user-agent: googlebot
allow: /
user-agent: *
disallow: /
例6. 禁止spider訪問特定目錄
在這個例子中,該**有三個目錄對搜尋引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每乙個目錄必須分開宣告,而不能寫成 "disallow: /cgi-bin/ /tmp/"。
user-agent: *
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/
例7. 允許訪問特定目錄中的部分urluser-agent: *
allow: /cgi-bin/see
allow: /tmp/hi
allow: /~joe/look
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/
例8. 使用"*"限制訪問url
禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的url(包含子目錄)。
user-agent: *
disallow: /cgi-bin/*.htm
例9. 使用"$"限制訪問url
僅允許訪問以".htm"為字尾的url。
user-agent: *
allow: /*.htm$
disallow: /
例10. 禁止訪問**中所有的動態頁面user-agent: *
disallow: /*?*
僅允許抓取網頁,禁止抓取任何。
例12. 僅允許baiduspider抓取網頁和.gif格式
允許抓取網頁和gif格式,不允許抓取其他格式
例13. 僅禁止baiduspider抓取.jpg格式user-agent: baiduspider
10. robots.txt檔案參考資料
html author's guide to the robots exclusion protocol
the original 1994 protocol description, as currently deployed
the revised internet-draft specification, which is not yet completed or implemented
本文**:
禁止搜尋引擎收錄的方法
禁止搜尋引擎收錄的方法 什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄...
禁止搜尋引擎收錄的方法
什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收...
禁止搜尋引擎收錄的方法
什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收...