Google通過提交表單抓取新頁面

2022-10-05 23:18:33 字數 1061 閱讀 4810

google雖然已經是抓取頁面最多的搜尋引擎,但還是不滿足,因為有很多網頁和資訊是很難被發現和抓取的。這也就是為什麼做**時一定要注意搜尋引擎友好。

現在google開始提供提交表單(form)發現其後的網頁。本想寫個詳細說明,剛好看到幻滅已經寫了,就直接引用主要內容如下。

之前我們已經知道googlebot除了能抓取文字、**、音訊、flash等型別的內容外,它還可以通過js**抓取鏈結ejanjoxld。並且在未來,googlebot還有望直接識別及**裡的文字。為了進一步抓取網際網路的內容,google宣布googlebot已可通過提交**抓取更多內容。

據google所述,當前googlebot正對一小部分高質量**進行**提交的試驗。當googlebot發現這些**上有html**時(即檢測到時),它就會自動從**上選擇一些詞語輸入**的文字框裡,然後再選擇不同的按鈕、勾選項及驗證項,再提交**。提交**後一旦 googlebot認為出現的新內容是合法並且是有ejanjoxld趣及獨特的,它就可能會把內容抓取進google的搜尋結果索引資料庫裡。這意味著googlebot 現在已經懂得通過提交**而獲得新內容。

同時google也強調,如果**的robots.txt檔案裡禁止了對**進行了隱藏,不希望**提交後所產生的鏈結被抓取,那googlebot 是不會抓取的。此外,當前googlebot只提交get型別的**。比如當**需要輸入使用者個人資訊比如密碼、使用者名稱、聯絡人等,googlebot是 會自動略過這些**的。

這種**抓取當前只是乙個小範圍的試驗,google表示不會對**造成影響。既不會對**的pr值造成影響,也不會對**的正常抓取、排名等造成影響。

matt cutts也寫了個帖子舉例說明這麼做的好處。有很多**首頁只是以表單方式列出公司下屬的各地區分站,沒有以鏈結形式列出各分站。這種**以前是不能被深度收錄的,因為google不提交表單,就發現不了隱藏在表單後面的url。

這當然給一些**的收錄創造了機會,是否也會對某些公司**帶來一定的安全風險?**某部分不想被收錄的話,趕緊用robots程式設計客棧.txt檔案禁止吧。

本文標題: google通過提交表單抓取新頁面

本文位址: /news/seo/65199.html

通過表單提交資料的幾種情況

一般html頁面,就可能會用到資料,而資料,那麼就可能需要用到表單進行提交。所以使用表單提交資料的情況與資料的情況有直接關聯。資料資訊有以下幾類 1.更新資料。一般需要經常更新的資料,一般需要採用表單從後台進行提交。所以對於這些資料,一般是要用到表單提交的。2.可以更新資料。有些資料不經常更新,但是...

JSP通過Servlet提交表單資料並顯示

今天試著實現乙個小demo,通過乙個註冊頁面,提交我們所填寫的資料,並且顯示在乙個 內 步驟一 通過分析,需求,我們需要先寫好兩個jsp register.jsp userlist.jsp 使用者列表 序號賬號姓名 性別愛好 簡介 我們定義好每個資料的name屬性之後,就可以在自定義的servlet...

flask提交表單驗證不通過,以及CSRF攻擊原理

提交表單時怎麼都無法驗證通過 記錄一下,自己的學習bug,主要是因為在模板中書寫渲染的語句時,把csrf的欄位名寫錯了。因為在模板中書寫一些語句是沒有提示的,自己手動敲 容易出現變數值錯誤。原本我寫的是這樣的。正確的應該是 flask wtf的表單驗證方法form.validate on submi...