常見robots txt錯誤

- 顛倒了順序：

錯誤寫成

user-agent: *

disallow: googlebot

正確的應該是：

user-agent: googlebot

disallow: *

- 把多個禁止命令放在一行中：

例如，錯誤地寫成

disallow: /css/ /cgi-bin/ /images/

正確的應該是

disallow: /css/

disallow: /cgi-bin/

disallow: /images/

- 行前有大量空格

例如寫成

disallow: /cgi-bin/

儘管在標準沒有談到這個，但是這種方式很容易出問題。

- 404重定向到另外乙個頁面：

當robot訪問很多沒有設定robots.txt檔案的站點時，會被自動404重定向到另外乙個html頁面。這時robot常常會以處理robots.txt檔案的方式處理這個html頁面檔案。雖然一般這樣沒有什麼問題，但是最好能放乙個空白的robots.txt檔案在站點根目錄下。

- 採用大寫。例如

user-agent: excite

disallow:

雖然標準是沒有大小寫的，但是目錄和檔名應該小寫：

user-agent:googlebot

disallow:

- 語法中只有disallow，沒有allow！

錯誤的寫法是：

- 忘記了斜槓/

錯誤的寫做：

正確的應該是

robots txt詳細介紹

robots.txt基本介紹當乙個搜尋機械人有的叫搜尋蜘蛛訪問乙個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜尋機械人就會按照該檔案中的內容來確定訪問的範圍如果該檔案不存在，那麼搜尋機械人就沿著鏈結抓取。另外，robots.txt必須放置在乙個站點的根目錄下，...

詳細講解robots txt寫法

什麼是robots.txt檔案呢?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個時，會首先會檢查該的根域下是否有乙個叫做robots.txt的純文字檔案。您可以在您的中建立乙個純文字檔案robots.txt，在檔案中宣告該中不想被robot訪問的部...

如何建立robots txt檔案

首先開門見山第乙個問題什麼是robots.txt?這是乙個文字檔案，是搜尋引擎爬行網頁要檢視的第乙個檔案，你可以告訴搜尋引擎哪些檔案可以被檢視，哪些禁止。當搜尋機械人也叫搜尋蜘蛛訪問乙個站點時，它首先會檢查根目錄是否存在robots.txt，如果存在，搜尋機械人就會按照該檔案中的內容來確定訪問...

常見robots txt錯誤

robots txt詳細介紹

詳細講解robots txt寫法

如何建立robots txt檔案

相關推薦