以上的一段**限制了所有的搜尋引擎建立你的網頁快照。如果我們需要僅僅限制乙個搜尋引擎建立快照的話,就可以像如下這樣去寫
需要注意的是,這樣的標記僅僅是禁止搜尋引擎為你的**建立快照,如果你要禁止搜尋引擎索引你的這個頁面的話,請參照後面的辦法。
第二種情況:禁止搜尋引擎抓取本頁面。
在seo中,禁止搜尋引擎抓取本頁面或者是允許搜尋引擎抓取本頁面是經常會用到的。因此我們需要對這一部分重點做一次討論。
為了讓搜尋引擎禁止抓取本頁面,我們一般的做法是在頁面的元標記中加入如下的**:
在這裡,meta name="robots"是泛指所有的搜尋引擎的,在這裡我們也可以特指某個搜尋引擎,例如meta name="googlebot"、meta name="baiduspide"等。content部分有四個命令:index、noindex、follow、nofollow,命令間以英文的「,」分隔。
index命令:告訴搜尋引擎抓取這個頁面
noindex命令:告訴搜尋引擎不允許抓取這個頁面
根據以上的命令,我們就有了一下的四種組合
這裡需要注意的是,不可把兩個對立的反義詞寫到一起,例如
或者直接同時寫上兩句
這裡有乙個簡便的寫法,如果是
的形式的話,可以寫成:
如果是的形式的話,可以寫成:
當然,我們也可以把禁止建立快照和對於搜尋引擎的命令寫到乙個命令元標記中。從上面的文章中我們得知,禁止建立網頁快照的命令是noarchive,那麼我們就可以寫成如下的形式:
如果在元標記中不屑關於蜘蛛的命令,那麼預設的命令即為如下
因此,如果我們對於這一部分把握不准的話,可以直接寫上上面的這一行命令,或者是直接留空。
在seo中,對於蜘蛛的控制是非常重要的一部分內容,所以希望各位看官準確把握這部分的內容。
網頁內容抓取
之前採用xpath和正規表示式對網頁內容進行抓取,發現在有的地方不如人意,就採用了htmlparser對頁面進行解析,抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種,抓取成對的tag之間的內容,採用了queue.qu...
php抓取網頁
用php抓取頁面的內容在實際的開發當中是非常有用的,如作乙個簡單的內容採集器,提取網頁中的部分內容等等,抓取到的內容在通過正規表示式做一下過濾就得到了你想要的內容,以下就是幾種常用的用php抓取網頁中的內容的方法。1.file get contents php url contents file g...
網頁抓取小結
網頁抓取步驟 1.將頁面轉化為流 或字串 2.將流儲存為.xml檔案 主要目地是為了處理中文亂碼問題,xml檔案為臨時檔案 3.將xml轉化為流,用jtidy進行html格式化處理,並將處理好後的流轉化為dom樹 4.將dom樹轉化為xpath可以解析的inputsource 5.用xpath進行解...