首先開門見山第乙個問題:什麼是robots.txt?
這是乙個文字檔案,是搜尋引擎爬行網頁要檢視的第乙個檔案,你可以告訴搜尋引擎哪些檔案可以被檢視,哪些禁止。
當搜尋機械人(也叫搜尋蜘蛛)訪問乙個站點時,它首先會檢查根目錄是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問**上所有沒有被口令保護的頁面。
可以看出,robots.txt是放在**根目錄的,另外而且檔名全部使用小寫。
robots.txt基本語法
我們先看乙個簡單的例子:http://www.seo0592.com/robots.txt
這個是廈門seo技術站點的乙個例子,我們在說這四行是什麼意思之前來先看看robots.txt的幾個關鍵語法:
如disallow:/
disallow:/images/
disallow:/admin/
disallow:/css/
等等……
由此可看:上面例子所表示的意思是禁止所有搜尋引擎訪問**的任何部分。
下面,我們列舉一些robots.txt 具體用法:
1、允許所有的robot訪問
user-agent: *
disallow:
或者user-agent: *
allow: /
或者建乙個空檔案"robots.txt"即可。
2、僅禁止某個機械人訪問您的**,如baiduspider。
3、僅允許某個機械人訪問您的**,如baiduspider。
4、禁止訪問特定目錄
user-agent: *
disallow: /admin/
disallow: /css/
disallow: /*script/
5、允許訪問特定目錄中的部分url
user-agent: *
allow: /admin/user/
allow: /data/d.html
disallow: /admin/
disallow: /data/
6、使用"*"限制訪問url
user-agent: *
disallow: /upload/*.jspx
禁止訪問/upload/目錄下的所有以".jspx"為字尾的url(包含子目錄)。
7、使用"$"限制訪問url
user-agent: *
allow: .htm$
disallow: /
僅允許訪問以".htm"為字尾的url。
8、禁止訪問**中所有的動態頁面
user-agent: *
disallow: /*?*
9、禁止baiduspider抓取**上所有
10、僅允許baiduspider抓取網頁和.gif格式
允許抓取網頁和gif格式,不允許抓取其他格式
robots.txt檔案裡還可以直接包括在sitemap檔案的鏈結。
就像這樣:sitemap:http://www.yourhost.com/sitemap.xml
但加上這句話時,請特別讀下面這段話:
目前對此表示支援的搜尋引擎公司有google, yahoo, ask and msn。而中文搜尋引擎公司,顯然不在這個圈子內。這樣做的好處就是,站長不用到每個搜尋引擎的站長工具或者相似的站長部分,去提交自己的sitemap檔案,搜尋引擎的蜘蛛自己就會抓取robots.txt檔案,讀取其中的sitemap路徑,接著抓取其中相鏈結的網頁。
注意:robots.txt的所有指令都區分大小寫。例如:disallow: /junk_file.asp 會攔截http://www.example.com/junk_file.asp,卻會允許http://www.example.com/junk_file.asp。一般與程式有關的都是區分大小寫的,並且要以英文狀態下編寫。
另:googlebot 會忽略 robots.txt 中的空白內容(特別是空行)和未知指令。
robots meta標籤的寫法:
robots meta標籤中沒有大小寫之分,name="robots"表示所有的搜尋引擎,可以針對某個具體搜尋引擎寫為name="baiduspider"。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以","分隔。
index 指令告訴搜尋機械人抓取該頁面;
robots meta標籤的預設值是index和follow,只有inktomi除外,對於它,預設值是index,nofollow。
這樣,一共有四種組合:
其中
可以寫成》meta name="robots" content="all">;
可以寫成
目前看來,絕大多數的搜尋引擎機械人都遵守robots.txt的規則,而對於robots meta標籤,目前支援的並不多,但是正在逐漸增加,如著名搜尋引擎google就完全支援,而且google還增加了乙個指令「archive」,可以限制google是否保留網頁快照。例如:
表示抓取該站點中頁面並沿著頁面中鏈結抓取,但是不在goolge上保留該頁面的網頁快照。
最後再簡單說說我們為何需要用robots.txt這個檔案來告訴搜尋機械人不要爬行我們的部分網頁,比如:後台管理檔案、程式指令碼、附件、資料庫檔案、編碼檔案、樣式表檔案、模板檔案、導航和背景等等。說到底了,這些頁面或檔案被搜尋引擎收錄了,使用者也看不了,多數需要口令才能進入或是資料檔案。既然這樣,又讓搜尋機械人爬行的話,就浪費了伺服器資源,增加了伺服器的壓力,因此我們可以用robots.txt告訴機械人集中注意力去收錄我們的文章頁面。增強使用者體驗。
再提醒廣大建站朋友的是,在建站初期,並上伺服器測試時,最好寫乙個robots.txt以禁止搜尋引擎收錄,以免造成不白之冤。建好後再放開懷抱,與搜尋引擎攀上友好關係,共同服務於廣大客戶。
篇幅短短,並不長。但包含網友所關心的:robots.txt、robots.txt檔案、robots.txt問題、robots.txt 如何寫、robots.txt技巧、robots.txt 怎麼寫、robots.txt 寫法、robots.txt 具體用法等系列問題。相信,您要是從頭一字不漏地看到這,並深刻理解再一結合上面的例子通過舉一反三便可以寫出適合自己**的乙個robots.txt。這樣廣大網友們就不必開啟搜尋引擎帶著robots.txt相關問題到處亂竄了。
clazy,廈門seo.clazy【http://www.seo0592.com】的創始人,度谷seo論壇(http://www.web520.com/bbs
SEO兩百個秘密 robots txt檔案的秘密
能不能被搜尋引擎索引到,除了看有沒有向搜尋引擎入口提交 有否與其他站點交換鏈結等之外,還得看根目錄底下的robots.txt檔案有沒有禁止搜尋引擎的收錄。熟練書寫robots.txt語法,是每個seoer所必須掌握的基本技能。seo研究院曾經寫過一篇 seo七十二案例 z blog優化完全攻略 的具...
C 如何建立Xml檔案
xmltextwriter物件簡介 xmltextwriter物件包含了很多可用於在建立xml檔案時新增元素和屬性到xml檔案裡的方法,比較重要的有 writestartdocument 建立xml檔案首先就需要用到這個方法,它是在建立xml檔案的第一行 用來指定該檔案是xml檔案以及設定它的編碼型...
Android中如何建立xml檔案
sax中想必大家對xml檔案讀取的方法已經比較熟悉了,在這裡我們就不多說了,直接說明如何將資訊寫成xml檔案,首先介紹andoid sdk中的相關類。類說明 xmlserializer define an inte ce to serialziation of xml infoset.定義乙個介面來...