如何讓google不收錄我的網頁(robots)
詳細的說明可以檢視這裡:
當然這個也許並不是你真正期望的。你只不過是不想讓google搜尋到某些網頁。 這個時候你需要乙個robots.txt 檔案放到你**的根目錄下。
如何寫 robots.txt 呢?
robots.txt檔案的格式:
robots.txt檔案的格式比較特殊,它由記錄組成。這些記錄通過空行分開。其中每條記錄均由兩個域組成:
1) 乙個user-agent(使用者**)字串行;
2) 若干disallow字串行。
記錄格式為:":"
下面我們分別對這兩個域做進一步說明。
user-agent(使用者**):
user-agent行(使用者**行) 用於指定搜尋引擎robot的名字,以google的檢索程式googlebot為例,有:user-agent: googlebot
乙個robots.txt中至少要有一條user-agent記錄。如果有多條user-agent記錄,則說明有多個robot會受到res標準的限制。當然了,如果要指定所有的robot,只需用乙個萬用字元"*"就搞定了,即:user-agent: *
disallow(拒絕訪問宣告):
空格 & 注釋
1) res標準允許將註解內容放在指示行的末尾,但這種格式並不是所有的spiders都能夠支援。譬如,並不是所有的spiders都能夠正確理解"disallow: bob #comment"這樣一條指令。有的spiders就會誤解為disallow的是"bob#comment"。最好的辦法是使註解自成一行。
2) res標準允許在乙個指令行的開頭存在空格,象"disallow: bob #comment",但我們也並不建議大家這麼做。
robots.txt檔案的建立:
需要注意的是,應當在unix命令列終端模式下建立robots.txt純文字檔案。好的文字編輯器一般都能夠提供unix模式功能,或者你的ftp客戶端軟體也「應該」能夠替你轉換過來。如果你試圖用乙個沒有提供文字編輯模式的html編輯器來生成你的robots.txt純文字檔案,那你可就是瞎子打蚊子——白費力氣了。
對res標準的擴充套件:
儘管已經提出了一些擴充套件標準,如allow行或robot版本控制(例如應該忽略大小寫和版本號),但尚未得到res工作組的正式批准認可。
附錄i. robots.txt用法舉例:
使用萬用字元"*",可設定對所有robot的訪問許可權。
user-agent: *
disallow:
user-agent: *
disallow: /
user-agent: *
disallow: /cgi-bin/disallow: /images/
user-agent: roverdog
disallow: /
user-agent: googlebot
disallow: cheese.htm
上面介紹了一些簡單的設定,對於比較複雜的設定,可參看一些大型站點如cnn或look**art的robots.txt檔案(
1. robots.txt常見問題解析
2. robots meta tag的使用
3. robots.txt檢測程式
robots.txt常見問題解析:
錯誤1—語法混用
例如:user-agent: *
disallow: scooter
正確語法應為:
user-agent: scooter
disallow: *
錯誤2—一行disallow宣告多個目錄
絕大多數的spiders對上述宣告行都無法做出正確的解析,有些spiders會忽略其空格而解析為/css//cgi-bin//images/,或只解析/images/或/css/,或者根本不予解析。
正確的語法應為:
disallow: /css/
disallow: /cgi-bin/
disallow: /images/
錯誤3—在dos模式下編輯robots.txt檔案
這也是乙個比較常見的錯誤。正確的做法應該是在unix模式下編輯你的robots.txt檔案並以ascii碼格式上傳。顯然並非所有的ftp客戶端軟體都能夠天衣無縫地將檔案格式轉換為unix命令列終端,所以在編輯robots.txt檔案時,一定要確保你的文字編輯器是在unix模式下。
錯誤4—在指示行末尾加註
在robots.txt檔案中,凡以"#"開頭的行,均被視為註解內容,這和unix中的慣例是一樣的。例如:disallow: /cgi-bin/ # this bans robots from our cgi-bin
雖然根據res標準,在指示行的末尾加註是可行的,但這種格式在過去卻並非所有的spiders都能夠支援,有些spiders乾脆就把整個句子視為註解內容直接跳過去不讀。當然我們知道現如今搜尋引擎基本上都能夠支援這種格式,不過—仍有可能無法被某些搜尋引擎正確解讀,你冒得起這個險嗎?我們建議在編輯robots.txt檔案時,最好讓註解自成一行。
錯誤5—指令行前有空格
例如"disallow: /cgi-bin/",雖然res標準並未對這種格式予以特別說明,但我們對這種格式是持極力反對態度的。同樣的問題擺在你面前你冒得起無法被spiders正確解讀的險嗎?
錯誤6--404重定向至另一頁面
一般沒有robots.txt的**會將對robots.txt檔案的呼叫請求轉至另一頁面。這種重定向通常不會產生伺服器狀態錯誤或重定向狀態資訊。然而因為是spiders自己決定它看到的是robots.txt檔案還是乙個.html檔案。雖然理論上應該不會有什麼問題,不過為了保險起見,不妨在你伺服器的頂級目錄下放乙個空的robots.txt檔案。在
下,也提供了相同的建議—「如欲避免網路伺服器日誌中的出錯資訊『找不到檔案』,可在其根域下建立乙個空的robots.txt檔案。」
錯誤7—宣告自相矛盾
例如:user-agent: excite
disallow:
雖然res標準忽略大小寫(case sensitive),但目錄和檔名卻是大小寫敏感的。所以對於"user-agent"和"disallow"指令,用大小寫都是可以的。但對於所宣告的目錄或檔名卻一定要注意大小寫的問題。
錯誤8—列出所有檔案
這也是一種常見錯誤,不厭其煩地將目錄下檔案全數列出。例如:
disallow: /al/alabama.html
disallow: /al/ar.html
disallow: /az/az.html
disallow: /az/bali.html
disallow: /az/bed-breakfast.html
其實,上面這麼多宣告行只需用目錄選項來替代:
disallow: /al
disallow: /az
需要注意的是:反斜槓"/"表示禁止搜尋引擎進入該目錄。如果只有幾十個檔案需要設定訪問許可權,那倒也無可厚非。問題是我們發現有乙個robots.txt檔案中列出了有400k,多達4,000個檔案。我們只是納悶看到這麼多宣告,有多少spiders會掉頭而去。
錯誤9—自創allow指令
沒有allow指令,只有disallow指令!我們發現有這樣的用法:
user-agent: spot
disallow: /john/
allow: /jane/
正確寫法應為:
user-agent: spot
disallow: /john/
disallow:
錯誤10—對宣告的目錄無反斜槓標識
例如我們發現有這樣的例子:
user-agent: spot
disallow: john
對這樣的記錄spider該怎麼反應?按照res標準,spider會將名為"john"的檔案和名為"john"的目錄都disallow。所以要記得使用"/"來標識所宣告的路徑(目錄)。
錯誤11—網路伺服器端的錯誤配置
為什麼對robots.txt檔案的呼叫請求會產生乙個二進位制檔案?只有網路伺服器或ftp客戶端軟體錯誤設定的情況下才可能發生這種錯誤。建議大家定期檢查自己的robots.txt檔案(
伺服器/網域名稱「農場」
搜尋引擎檢測伺服器或網域名稱「農場」(即包含巨量站點)的乙個簡單途徑是看它們的robots.txt。我們發現規模在400到500個網域名稱的大型網域名稱「農場」,其「庫」內站點使用都是同乙個robots.txt檔案。這也就相當於告訴搜尋引擎這些使用同一robots.txt檔案的站點是相關聯的。
google率先支援萬用字元:
google是第一家能夠支援robots.txt中萬用字元副檔名的搜尋引擎。例如:
user-agent: googlebot
disallow: *.cgi
不過注意了,由於目前只有google能夠支援這種格式,所以」user-agent」只能是「googlebot」。
百度怎麼不收錄我的站點怎麼辦
你出現的情況,一般是正常的,搜尋引擎對所有的站點都採取幾乎一樣的程式對付,如果你符合某乙個條件就會相應的獲得乙個的結果。如 對新站,有乙個收錄的程式 對作弊站,有乙個一樣的懲罰辦法 日誌往往以日期命名,你可以從最近的日誌裡開始找,如果沒有,再往前找乙個 通過日誌,你會得出這幾個判斷 菜鳥?還不懂?往...
如何讓搜尋引擎收錄我的站 ZT
目前網上專業提供seo服務的公司很多,魚龍混雜,不管如何,他們共同的特點就是把自己說的神乎其神,與之接觸必曰 你的 交給我優化,xx期限內,讓你的 出現在xx搜尋引擎的xx位置上云云 有這麼厲害嗎?還真有這麼厲害,當然,我說的是那些有真本事的公司,不是 本人對seo的了解也很有限,不過我不是 呵呵,...
如何讓百度收錄被閒置的文章
就在上週我接到了乙個優化任務,把乙個關於商標轉讓類的二級網域名稱主關鍵詞排名給排上去。拿到這個站,首先就要對它進行分析,從 開始分析呢,從各大搜尋引擎的對它的反應開始分析。一 用各大搜尋引擎進行查詢 用谷歌查詢得知,谷歌總共收錄文章是290000萬多,你沒有看錯是這些。而查詢之後收錄是34800篇,...