可以通過dns反查方式來解決這個問題。根據平台不同驗證方法不同,如linux/windows/os三種平台下的驗證方法分別如下:
1、在linux平台下,您可以使用host ip命令反解ip來判斷是否來自baiduspider的抓取。baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
平台或者
ibm os/2
平台下,您可以使用
nslookup ip
命令反解ip來
判斷是否來自
的抓取。開啟命令處理器
輸入nslookup ***.***.***.***(ip
位址)就能解析ip,
來判斷是否來自
的抓取,
的hostname
以*.baidu.com
或*.baidu.jp
的格式命名,非
或*.baidu.jp
即為冒充。
3、在mac os平台下,您可以使用dig 命令反解ip來 判斷是否來自baiduspider的抓取。開啟命令處理器 輸入dig ***.***.***.***(ip地 址)就能解析ip, 來判斷是否來自baiduspider的抓取,baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
看到這,看有乙個很明顯的ip段很多ip在訪問我的**,隨便用上述方法測試了下,發現ip是google的,呵呵!看來方法很實用!
常見搜尋引擎蜘蛛大全
谷歌 google.com googlebot http www.google.com bot.html 中文版請開啟以下頁面 雅虎 yahoo.com yahoo http misc.yahoo.com.cn help.html 開啟後跳轉到以下頁面 有道 yodao.com yodaobot 搜...
搜尋引擎蜘蛛爬蟲原理
1 聚焦爬蟲工作原理及關鍵技術概述 相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供...
搜尋引擎蜘蛛工作原理
能在搜尋引擎被搜到,歸功於搜尋引擎蜘蛛抓取的功勞,權重高,更新快的 搜尋引擎蜘蛛會經常爬行,抓取 最新資料,經過搜尋引擎資料整理後,在搜尋引擎上就能搜尋到 的網頁,為了更好的seo優化 了解搜尋引擎蜘蛛爬行規則也是相當重要的,怎麼才能知道搜尋引擎蜘蛛在爬行 時間 爬行網頁 爬行反映呢,就要檢視 ii...