反搜尋引擎

最近同事在做搜尋引擎，一時興起，搞了乙個反搜尋，主要參考這個：

限制robot訪問web站點的方法

robot是幫助搜尋引擎蒐集網頁的一種自動化程式，它在訪問乙個web站點時，會跟隨網頁中的鏈結提取出站點上的大部分內容，並為這些網頁建立索引，放在搜尋引擎的資料庫中。在一些情況下，web管理員或網頁的作者出於某種原因的考慮可能並不想讓robot提取站點上的某些內容，此時可以使用一些方法來限制robot的訪問範圍。

限制robot訪問web站點的方法共有兩種，一種是由站點的web管理員使用的robot限制協議，目前絕大部分robot都遵守該協議，另一種是由網頁作者使用的robot meta標記，目前只有一小部分robot支援該標記。

robot限制協議

robot限制協議的關鍵是在web站點的根目錄下放置乙個文字檔案robot.txt。robot在訪問乙個站點時會首先去讀取該檔案，分析其中的內容，並按照web管理員的規定不去訪問某些檔案。下面是robot.txt的乙個例子：

＃ user－agent: 

disallow: /tmp/ ＃ these files will soon be deleted

disallow: /test.html

user－agent: infoseek robot 1.0

disallow: /

其中"＃"後面的內容是注釋，user－agent命令用於指定它下面的disallow命令對何種robot有效，""表示對所有robot都有效，上面例子中第二個user－agent命令表示其下面的disallow命令只對infoseek的1.0版robot有效。disallow命令用於指定哪些目錄或檔案不能被訪問，如果指定了"/"，那麼所有檔案都不允許訪問，disallow命令在一行中只能放乙個目錄或乙個檔案，如果有多個目錄，則必須分別放在幾行中。

上面的robot.txt檔案是目前還在使用的早期robot限制協議規定的內容，現在還有乙個關於如何限制robot的internet草案正在制定之中，它對早期robot限制協議進行了很多擴充，但還未進入實用階段。

robot meta標記

絕大多數情況下，網頁作者並非web管理員，如果網頁作者不想讓robot訪問自己編寫的一些html檔案，那麼可以請web管理員幫忙在robot.txt中註明，或者使用robot meta標記。

meta標記是html檔案中用來放置一些不可見資訊的一種標記，它必須放在html檔案的head部分中。robot meta標記是一種特殊的meta標記，下面是它的幾個例子：

〈meta name=″robots″ content=″index,follow″〉

〈meta name=″robots″ content=″noindex,follow″〉

〈meta name=″robots″ content=″index,nofollow″〉

〈meta name=″robots″ content=″noindex,nofollow″〉

使用robot meta標記的缺點是比較麻煩，對每乙個html檔案都要進行修改，另外，很多robot並不支援該標記。

反搜尋引擎

搜尋引擎索引

MySQL搜尋引擎程式 mysql搜尋引擎

搜尋引擎倒排索引

反搜尋引擎

搜尋引擎 索引

MySQL搜尋引擎程式 mysql搜尋引擎

搜尋引擎 倒排索引

相關推薦

搜尋引擎索引

搜尋引擎倒排索引