如何建立robots txt檔案

首先開門見山第乙個問題：什麼是robots.txt?

這是乙個文字檔案，是搜尋引擎爬行網頁要檢視的第乙個檔案，你可以告訴搜尋引擎哪些檔案可以被檢視，哪些禁止。

當搜尋機械人（也叫搜尋蜘蛛）訪問乙個站點時，它首先會檢查根目錄是否存在robots.txt，如果存在，搜尋機械人就會按照該檔案中的內容來確定訪問的範圍；如果該檔案不存在，所有的搜尋蜘蛛將能夠訪問**上所有沒有被口令保護的頁面。

可以看出，robots.txt是放在**根目錄的，另外而且檔名全部使用小寫。

robots.txt基本語法

我們先看乙個簡單的例子：http://www.seo0592.com/robots.txt

這個是廈門seo技術站點的乙個例子，我們在說這四行是什麼意思之前來先看看robots.txt的幾個關鍵語法：

如disallow:/

disallow:/images/

disallow:/admin/

disallow:/css/

等等……

由此可看：上面例子所表示的意思是禁止所有搜尋引擎訪問**的任何部分。

下面，我們列舉一些robots.txt 具體用法：

1、允許所有的robot訪問

user-agent: *

disallow:

或者user-agent: *

allow: /

或者建乙個空檔案"robots.txt"即可。

2、僅禁止某個機械人訪問您的**，如baiduspider。

3、僅允許某個機械人訪問您的**，如baiduspider。

4、禁止訪問特定目錄

user-agent: *

disallow: /admin/

disallow: /css/

disallow: /*script/

5、允許訪問特定目錄中的部分url

user-agent: *

allow: /admin/user/

allow: /data/d.html

disallow: /admin/

disallow: /data/

6、使用"*"限制訪問url

user-agent: *

disallow: /upload/*.jspx

禁止訪問/upload/目錄下的所有以".jspx"為字尾的url(包含子目錄)。

7、使用"$"限制訪問url

user-agent: *

allow: .htm$

disallow: /

僅允許訪問以".htm"為字尾的url。

8、禁止訪問**中所有的動態頁面

user-agent: *

disallow: /*?*

9、禁止baiduspider抓取**上所有

10、僅允許baiduspider抓取網頁和.gif格式

允許抓取網頁和gif格式，不允許抓取其他格式

robots.txt檔案裡還可以直接包括在sitemap檔案的鏈結。

就像這樣：sitemap:http://www.yourhost.com/sitemap.xml

但加上這句話時，請特別讀下面這段話：

目前對此表示支援的搜尋引擎公司有google, yahoo, ask and msn。而中文搜尋引擎公司，顯然不在這個圈子內。這樣做的好處就是，站長不用到每個搜尋引擎的站長工具或者相似的站長部分，去提交自己的sitemap檔案，搜尋引擎的蜘蛛自己就會抓取robots.txt檔案，讀取其中的sitemap路徑，接著抓取其中相鏈結的網頁。

注意:robots.txt的所有指令都區分大小寫。例如:disallow: /junk_file.asp 會攔截http://www.example.com/junk_file.asp，卻會允許http://www.example.com/junk_file.asp。一般與程式有關的都是區分大小寫的，並且要以英文狀態下編寫。

另：googlebot 會忽略 robots.txt 中的空白內容（特別是空行）和未知指令。

robots meta標籤的寫法：

robots meta標籤中沒有大小寫之分，name="robots"表示所有的搜尋引擎，可以針對某個具體搜尋引擎寫為name="baiduspider"。 content部分有四個指令選項：index、noindex、follow、nofollow，指令間以","分隔。

index 指令告訴搜尋機械人抓取該頁面；

robots meta標籤的預設值是index和follow，只有inktomi除外，對於它，預設值是index,nofollow。

這樣，一共有四種組合：

其中

可以寫成》meta name="robots" content="all">；

可以寫成

目前看來，絕大多數的搜尋引擎機械人都遵守robots.txt的規則，而對於robots meta標籤，目前支援的並不多，但是正在逐漸增加，如著名搜尋引擎google就完全支援，而且google還增加了乙個指令「archive」，可以限制google是否保留網頁快照。例如：

表示抓取該站點中頁面並沿著頁面中鏈結抓取，但是不在goolge上保留該頁面的網頁快照。

最後再簡單說說我們為何需要用robots.txt這個檔案來告訴搜尋機械人不要爬行我們的部分網頁，比如：後台管理檔案、程式指令碼、附件、資料庫檔案、編碼檔案、樣式表檔案、模板檔案、導航和背景等等。說到底了，這些頁面或檔案被搜尋引擎收錄了，使用者也看不了，多數需要口令才能進入或是資料檔案。既然這樣，又讓搜尋機械人爬行的話，就浪費了伺服器資源，增加了伺服器的壓力，因此我們可以用robots.txt告訴機械人集中注意力去收錄我們的文章頁面。增強使用者體驗。

再提醒廣大建站朋友的是，在建站初期，並上伺服器測試時，最好寫乙個robots.txt以禁止搜尋引擎收錄，以免造成不白之冤。建好後再放開懷抱，與搜尋引擎攀上友好關係，共同服務於廣大客戶。

篇幅短短，並不長。但包含網友所關心的：robots.txt、robots.txt檔案、robots.txt問題、robots.txt 如何寫、robots.txt技巧、robots.txt 怎麼寫、robots.txt 寫法、robots.txt 具體用法等系列問題。相信，您要是從頭一字不漏地看到這，並深刻理解再一結合上面的例子通過舉一反三便可以寫出適合自己**的乙個robots.txt。這樣廣大網友們就不必開啟搜尋引擎帶著robots.txt相關問題到處亂竄了。

clazy,廈門seo.clazy【http://www.seo0592.com】的創始人，度谷seo論壇（http://www.web520.com/bbs

如何建立robots txt檔案

SEO兩百個秘密 robots txt檔案的秘密

C 如何建立Xml檔案

Android中如何建立xml檔案

如何建立robots txt檔案

SEO兩百個秘密 robots txt檔案的秘密

C 如何建立Xml檔案

Android中如何建立xml檔案

相關推薦