如何讓Google不收錄我的網頁 Robots

如何讓google不收錄我的網頁(robots)

詳細的說明可以檢視這裡：

當然這個也許並不是你真正期望的。你只不過是不想讓google搜尋到某些網頁。這個時候你需要乙個robots.txt 檔案放到你**的根目錄下。

如何寫 robots.txt 呢？

robots.txt檔案的格式：

robots.txt檔案的格式比較特殊，它由記錄組成。這些記錄通過空行分開。其中每條記錄均由兩個域組成：

1) 乙個user-agent(使用者**)字串行；

2) 若干disallow字串行。

記錄格式為：":"

下面我們分別對這兩個域做進一步說明。

user-agent(使用者**)：

user-agent行(使用者**行) 用於指定搜尋引擎robot的名字，以google的檢索程式googlebot為例，有：user-agent: googlebot

乙個robots.txt中至少要有一條user-agent記錄。如果有多條user-agent記錄，則說明有多個robot會受到res標準的限制。當然了，如果要指定所有的robot，只需用乙個萬用字元"*"就搞定了，即：user-agent: *

disallow(拒絕訪問宣告)：

空格 & 注釋

1) res標準允許將註解內容放在指示行的末尾，但這種格式並不是所有的spiders都能夠支援。譬如，並不是所有的spiders都能夠正確理解"disallow: bob #comment"這樣一條指令。有的spiders就會誤解為disallow的是"bob#comment"。最好的辦法是使註解自成一行。

2) res標準允許在乙個指令行的開頭存在空格，象"disallow: bob #comment"，但我們也並不建議大家這麼做。

robots.txt檔案的建立：

需要注意的是，應當在unix命令列終端模式下建立robots.txt純文字檔案。好的文字編輯器一般都能夠提供unix模式功能，或者你的ftp客戶端軟體也「應該」能夠替你轉換過來。如果你試圖用乙個沒有提供文字編輯模式的html編輯器來生成你的robots.txt純文字檔案，那你可就是瞎子打蚊子——白費力氣了。

對res標準的擴充套件：

儘管已經提出了一些擴充套件標準，如allow行或robot版本控制(例如應該忽略大小寫和版本號)，但尚未得到res工作組的正式批准認可。

附錄i. robots.txt用法舉例：

使用萬用字元"*"，可設定對所有robot的訪問許可權。

user-agent: *

disallow:

user-agent: *

disallow: /

user-agent: *

disallow: /cgi-bin/disallow: /images/

user-agent: roverdog

disallow: /

user-agent: googlebot

disallow: cheese.htm

上面介紹了一些簡單的設定，對於比較複雜的設定，可參看一些大型站點如cnn或look**art的robots.txt檔案(

1. robots.txt常見問題解析

2. robots meta tag的使用

3. robots.txt檢測程式

robots.txt常見問題解析：

錯誤1—語法混用

例如：user-agent: *

disallow: scooter

正確語法應為：

user-agent: scooter

disallow: *

錯誤2—一行disallow宣告多個目錄

絕大多數的spiders對上述宣告行都無法做出正確的解析，有些spiders會忽略其空格而解析為/css//cgi-bin//images/，或只解析/images/或/css/，或者根本不予解析。

正確的語法應為：

disallow: /css/

disallow: /cgi-bin/

disallow: /images/

錯誤3—在dos模式下編輯robots.txt檔案

這也是乙個比較常見的錯誤。正確的做法應該是在unix模式下編輯你的robots.txt檔案並以ascii碼格式上傳。顯然並非所有的ftp客戶端軟體都能夠天衣無縫地將檔案格式轉換為unix命令列終端，所以在編輯robots.txt檔案時，一定要確保你的文字編輯器是在unix模式下。

錯誤4—在指示行末尾加註

在robots.txt檔案中，凡以"#"開頭的行，均被視為註解內容，這和unix中的慣例是一樣的。例如：disallow: /cgi-bin/ # this bans robots from our cgi-bin

雖然根據res標準，在指示行的末尾加註是可行的，但這種格式在過去卻並非所有的spiders都能夠支援，有些spiders乾脆就把整個句子視為註解內容直接跳過去不讀。當然我們知道現如今搜尋引擎基本上都能夠支援這種格式，不過—仍有可能無法被某些搜尋引擎正確解讀，你冒得起這個險嗎？我們建議在編輯robots.txt檔案時，最好讓註解自成一行。

錯誤5—指令行前有空格

例如"disallow: /cgi-bin/"，雖然res標準並未對這種格式予以特別說明，但我們對這種格式是持極力反對態度的。同樣的問題擺在你面前你冒得起無法被spiders正確解讀的險嗎?

錯誤6--404重定向至另一頁面

一般沒有robots.txt的**會將對robots.txt檔案的呼叫請求轉至另一頁面。這種重定向通常不會產生伺服器狀態錯誤或重定向狀態資訊。然而因為是spiders自己決定它看到的是robots.txt檔案還是乙個.html檔案。雖然理論上應該不會有什麼問題，不過為了保險起見，不妨在你伺服器的頂級目錄下放乙個空的robots.txt檔案。在

下，也提供了相同的建議—「如欲避免網路伺服器日誌中的出錯資訊『找不到檔案』，可在其根域下建立乙個空的robots.txt檔案。」

錯誤7—宣告自相矛盾

例如：user-agent: excite

disallow:

雖然res標準忽略大小寫(case sensitive)，但目錄和檔名卻是大小寫敏感的。所以對於"user-agent"和"disallow"指令，用大小寫都是可以的。但對於所宣告的目錄或檔名卻一定要注意大小寫的問題。

錯誤8—列出所有檔案

這也是一種常見錯誤，不厭其煩地將目錄下檔案全數列出。例如：

disallow: /al/alabama.html

disallow: /al/ar.html

disallow: /az/az.html

disallow: /az/bali.html

disallow: /az/bed-breakfast.html

其實，上面這麼多宣告行只需用目錄選項來替代：

disallow: /al

disallow: /az

需要注意的是：反斜槓"/"表示禁止搜尋引擎進入該目錄。如果只有幾十個檔案需要設定訪問許可權，那倒也無可厚非。問題是我們發現有乙個robots.txt檔案中列出了有400k，多達4,000個檔案。我們只是納悶看到這麼多宣告，有多少spiders會掉頭而去。

錯誤9—自創allow指令

沒有allow指令，只有disallow指令！我們發現有這樣的用法：

user-agent: spot

disallow: /john/

allow: /jane/

正確寫法應為：

user-agent: spot

disallow: /john/

disallow:

錯誤10—對宣告的目錄無反斜槓標識

例如我們發現有這樣的例子：

user-agent: spot

disallow: john

對這樣的記錄spider該怎麼反應？按照res標準，spider會將名為"john"的檔案和名為"john"的目錄都disallow。所以要記得使用"/"來標識所宣告的路徑(目錄)。

錯誤11—網路伺服器端的錯誤配置

為什麼對robots.txt檔案的呼叫請求會產生乙個二進位制檔案？只有網路伺服器或ftp客戶端軟體錯誤設定的情況下才可能發生這種錯誤。建議大家定期檢查自己的robots.txt檔案(

伺服器/網域名稱「農場」

搜尋引擎檢測伺服器或網域名稱「農場」(即包含巨量站點)的乙個簡單途徑是看它們的robots.txt。我們發現規模在400到500個網域名稱的大型網域名稱「農場」，其「庫」內站點使用都是同乙個robots.txt檔案。這也就相當於告訴搜尋引擎這些使用同一robots.txt檔案的站點是相關聯的。

google率先支援萬用字元:

google是第一家能夠支援robots.txt中萬用字元副檔名的搜尋引擎。例如:

user-agent: googlebot

disallow: *.cgi

不過注意了，由於目前只有google能夠支援這種格式，所以」user-agent」只能是「googlebot」。

如何讓Google不收錄我的網頁 Robots

百度怎麼不收錄我的站點怎麼辦

如何讓搜尋引擎收錄我的站 ZT

如何讓百度收錄被閒置的文章

如何讓Google不收錄我的網頁 Robots

百度怎麼不收錄我的站點怎麼辦

如何讓搜尋引擎收錄我的站 ZT

如何讓百度收錄被閒置的文章

相關推薦