避免蜘蛛爬行和索引錯誤的技巧 繞開衝突

2022-09-28 07:03:10 字數 1939 閱讀 2576

正如你所知道的,你不能總是依賴蜘蛛引擎在訪問或者索引你的**時能夠十分有效的運作。完全依靠他們自己的埠,蜘蛛會產生許多重複內容,把一些重要頁面當成垃圾,索引本不應該展示給使用者的鏈結入口,還會有其他的問題。有一些工具可以讓我們能夠充分控制蜘蛛在**內部的活動,如meta robots標籤,robots.txt、canonical標籤等。

今天,我講一下機械人控制技術使用的侷限。為了讓蜘蛛不抓取某乙個頁面,站長們有時會使用多個機械人控制技術, 來禁止搜尋引擎訪問某個網頁。不幸的是,這些技術能有時互相牴觸:從另一方面說這樣的限制會把某些死鏈給隱藏掉了。

那麼,當乙個頁面的robots檔案中被禁止訪問,或者被使用noindex tag 和 canonical tag時會發生什麼?

快速複習

程式設計客棧在我們進入主題之前,讓我們看一下那些主流的robots的一些限制技巧吧:

元機械人標籤

元機械人標籤(meta robots tag)為搜尋引擎機械人建立頁面等級說明。元機械人標籤應放在html檔案的頭部。

規範標籤(canonical tag)

規範標籤(canonical tag)是乙個位於網頁html頭部的頁面等級的元標籤。它告訴搜尋引擎哪乙個url的顯示是規範的。它的目的程式設計客棧是不讓搜尋引擎抓取重複內容,同時將重複頁面的權重集中在規範的那乙個頁面上。

x機械人標籤

自2023年以來,谷歌和其他搜尋引擎已經支援把x-robots-tag作為一種方法來告訴蜘蛛爬行和索引的優先順序,x-robots-tag位於http頭部,曾用於通知蜘蛛爬行和索引檔案而用。該標籤對控制那些非html檔案的索引是很有用的,如pdf檔案。

機械人標籤

robots.txt允許一些搜尋引擎進入**內部,但是它並不能保證具體某個頁面會不會被抓取和索引。除非出於seo的原因,否則只有當確實有必要或者在站點上有需要遮蔽的robots時robots.txt才確實值得使用。我總是推薦使用元資料標籤「noindex&r程式設計客棧dquo;來代替它。

避免衝突

同時利用兩種方法來限制robot入口是不明智的:

· meta robots 『noindex『 (元機械人標籤「noindex&rdqu程式設計客棧o;)

· canonical tag (when pointing to a different url) (標準標籤)

· robots.txt disallow

· x-robots-tamzhtig(x機械人標籤)

儘管你很想去保持頁面的搜尋結果,但是乙個辦法總是比兩個好。讓我們來看看當在乙個單一的url中有很多robots路徑控制技術時會發生什麼。

meta robots 』noindex『 和 canonical標籤

如果你的目標是乙個url的權重傳遞給另乙個url,而你卻沒有其他的更好辦法的時候,那就只能用canonical標籤。不要用元機械人標籤的「noindex」來給自己添麻煩。如果你使用兩個robot的方法,搜尋引擎可能根本看不到你的canonical標籤。權重傳遞的效用將會被忽略,因為機械人的noindex標籤會使它看不到canonical標籤!

meta robots 』noindex『 & x-robots-tag 』noindex『

這些標籤是多餘的。這兩個標籤放置在同乙個頁面我只能看到的是給seo造成的不良影響。如果你能在元機械人『noindex』中改變標頭檔案,你就不應該使用x機械人標籤吧。

robots.txt disallow &meta robots 』noindex『

這是我看過的最常見的衝突:

我之所以青睞meta robots「noindex」的原因是因為它可以有效的阻止乙個頁面被索引,同時它還還是可以傳遞權重到連線這個頁面的更深層次的頁面。這是乙個雙贏的方法。

如果兩個標籤都使用,robots.txt保證會使meta robots 『noindex』 不被蜘蛛看到。你會受到robots.txt中disallow的影響並且錯過了所有的meta robots『noindex』帶來的所有好處。

本文位址:

GAE上傳web app出現索引錯誤

error 400 begin server output creating a composite index failed an index may not be comprised of a single repeated property.your query probably doesn ...

sqlserver資料出現索引錯誤的解決

資料庫出現置疑 使用網路上通用的解決資料庫置疑的方法 use master gosp configure allow updates 1 reconfigure with override goupdate sysdatabases set status 32768 where name dyzd ...

我們如何能做到使蜘蛛逆向爬行索引

首先,我們要來個免責宣告 他們並不一定是必要的 但以防萬一 但你必須注意的是,這些是乙個概念化的東西,至少我是這樣認為的,還沒有進行實際的測試和實踐證明。的頁面的深度如果很高的話那對爬行和索引來說都是乙個挑戰,因為他們的結構很深,擁有大量的頁面,會有爬行的障礙 例如那些大量基於引數的url或者那些被...