- 顛倒了順序:
錯誤寫成
user-agent: *
disallow: googlebot
正確的應該是:
user-agent: googlebot
disallow: *
- 把多個禁止命令放在一行中:
例如,錯誤地寫成
disallow: /css/ /cgi-bin/ /images/
正確的應該是
disallow: /css/
disallow: /cgi-bin/
disallow: /images/
- 行前有大量空格
例如寫成
disallow: /cgi-bin/
儘管在標準沒有談到這個,但是這種方式很容易出問題。
- 404重定向到另外乙個頁面:
當robot訪問很多沒有設定robots.txt檔案的站點時,會被自動404重定向到另外乙個html頁面。這時robot常常會以處理robots.txt檔案的方式處理這個html頁面檔案。雖然一般這樣沒有什麼問題,但是最好能放乙個空白的robots.txt檔案在站點根目錄下。
- 採用大寫。例如
user-agent: excite
disallow:
雖然標準是沒有大小寫的,但是目錄和檔名應該小寫:
user-agent:googlebot
disallow:
- 語法中只有disallow,沒有allow!
錯誤的寫法是:
- 忘記了斜槓/
錯誤的寫做:
正確的應該是
robots txt詳細介紹
robots.txt基本介紹 當乙個搜尋機械人 有的叫搜尋蜘蛛 訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍 如果該檔案不存在,那麼搜尋機械人就沿著鏈結抓取。另外,robots.txt必須放置在乙個站點的根目錄下,...
詳細講解robots txt寫法
什麼是robots.txt檔案呢?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個 時,會首先會檢查該 的根域下是否有乙個叫做robots.txt的純文字檔案。您可以在您的 中建立乙個純文字檔案robots.txt,在檔案中宣告該 中不想被robot訪問的部...
如何建立robots txt檔案
首先開門見山第乙個問題 什麼是robots.txt?這是乙個文字檔案,是搜尋引擎爬行網頁要檢視的第乙個檔案,你可以告訴搜尋引擎哪些檔案可以被檢視,哪些禁止。當搜尋機械人 也叫搜尋蜘蛛 訪問乙個站點時,它首先會檢查根目錄是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問...