當google排名搜尋引擎剛建立之初,就擁有這乙個非常強大的的伺服器,
其每天放出大量的蜘蛛,我們稱為1號蜘蛛,其抓取量抓取速度是非常的快,
對其整個網際網路每天進行資訊進行的採集,可見伺服器的速度是多少快,其實最主要的是後期google
將伺服器延伸到了很多城市,所以現在你能發現google的運算速率是超前的快.
伺服器將採集的資訊分類,整理.到龐大的資料庫.
其中有個資料庫都是用來存**網域名稱的.
網域名稱只要被搜尋引擎索引到,將自動存入此資料庫.
此資料庫是1號蜘蛛的核心.
其內部分為10個pr各等級的小資料庫,雖說小資料庫,但也是大的可怕-。=!
10個等級的資料庫其週期也不同
基本上以乙個pr=4的**來講1號蜘蛛爬行的概率也在7天一次.
所以基本你也會發現收錄有大的幅度也是在7天內的某一天.
細心的站長會發現其實有時候7天還是蠻準的,但只針對pr=4
越是pr高其週期越是短,越是pr低週期越長,
當然說到這很多站長有這樣的疑惑.會覺得蜘蛛有時天天收錄他的站
這裡對其收錄的也就是接下來要說的2號蜘蛛
2號蜘蛛往往是在1號蜘蛛爬行過程中放出去的,
ps既然都說是2號蜘蛛肯定其抓取力度要比1號小很多.
★當然不只是有2號,還有3號蜘蛛
所謂3號也就a站1號蜘蛛爬行到b站,b站的2號蜘蛛爬行到c站
目前google為了限制其無限的迴圈對於蜘蛛只分為這三個等級.並對其等級的抓取率有個很明確的標準
而且2號與3號蜘蛛有個抓取特點基本以時間的先後順序進行抓取
★比方講:
那當a**被從別的**過來的2號蜘蛛給爬行,首先有可能會對其收錄的是
之後再爬行2008-6-1以後的資訊.如果你**沒有任何更新,它將對其近乙個月內的更改內容進行2次爬行.
如果外部來的2號與3號蜘蛛越多,同一篇文章有可能會被爬上好幾次.
以下為google提供的官方資料《秘》
★1號蜘蛛
基本抓取率在5%~10%
基於pr=0沒有任何匯入鏈結與提交時有可能被抓取的週期在6個月~12個月不等
基於pr=1沒有任何匯入鏈結與提交時有可能每次被抓取的週期在4個月~8個月不等
基於pr=2沒有任何匯入鏈結與提交時有可能被抓取的週期在2個月~4個月不等
基於pr=3沒有任何匯入鏈結與提交時有可能被抓取的週期在1個月~2個月不等
基於pr=4沒有任何匯入鏈結與提交時有可能被抓區的週期在1周~1個月不等
最高也只有pr=3
上述此資料只是google優化官方提供的乙個基數.
意思也就是1號蜘蛛主動爬取你**的週期數.
所以你會發現你的**有時天天在被更新.
★2號蜘蛛
基本抓取率是2.5%~5%《基於1號蜘蛛爬行後的資料記錄進行再次採集,對於最後次被採集日期的前後進行再次訪問》
★3號蜘蛛
基本抓取率為1.25%~2.5%《基於1號蜘蛛與2號蜘蛛爬行後的資料記錄進行再次採集,對於最後次被採集日期的前後進行再次訪問》
常見搜尋引擎蜘蛛大全
谷歌 google.com googlebot http www.google.com bot.html 中文版請開啟以下頁面 雅虎 yahoo.com yahoo http misc.yahoo.com.cn help.html 開啟後跳轉到以下頁面 有道 yodao.com yodaobot 搜...
搜尋引擎蜘蛛爬蟲原理
1 聚焦爬蟲工作原理及關鍵技術概述 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...
搜尋引擎蜘蛛工作原理
能在搜尋引擎被搜到,歸功於搜尋引擎蜘蛛抓取的功勞,權重高,更新快的 搜尋引擎蜘蛛會經常爬行,抓取 最新資料,經過搜尋引擎資料整理後,在搜尋引擎上就能搜尋到 的網頁,為了更好的seo優化 了解搜尋引擎蜘蛛爬行規則也是相當重要的,怎麼才能知道搜尋引擎蜘蛛在爬行 時間 爬行網頁 爬行反映呢,就要檢視 ii...