假定乙個場景:某個**它可能不希望被網路爬蟲抓取,例如測試環境不希望被抓取,以免對使用者造成誤導,那麼需要在該**中申明,本站不希望被抓取。有如下方法:
方法一:修改nginx.conf,禁止網路爬蟲的ua,返回403。
server
方法2:**更目錄下增加robots.txt,放在站點根目錄下。
在站點可以針對現在的搜尋引擎按照想要的規則生成robots.txt檔案。
知識擴充套件:
robots.txt是
搜尋引擎中訪問**的時候要檢視的第乙個檔案。robots.txt檔案告訴
蜘蛛程式在伺服器上什麼檔案是可以被檢視的。
當乙個搜尋蜘蛛訪問乙個
站點時,它會首先
檢查該站點
根目錄搜尋引擎收錄
的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄**上所有內容,請勿建立robots.txt檔案。
robots協議是國際網際網路界通行的道德規範,基於以下原則建立: 1、
搜尋 技術應服務於人類,同時尊重資訊提供者的意願,並維護其隱私權;
2、**有義務保護其使用者的個人資訊和
隱私 不被侵犯。
當然,如果搜尋引擎不遵守約定的robots協議,那麼通過在**下增加robots.txt也是不起作用的。(在正式環境中,可以適當允許搜尋引擎抓取收錄)
Nginx防蜘蛛爬蟲處理
假定乙個場景 某個 它可能不希望被網路爬蟲抓取,例如測試環境不希望被抓取,以免對使用者造成誤導,那麼需要在該 中申明,本站不希望被抓取。有如下方法 方法一 修改nginx.conf,禁止網路爬蟲的ua,返回403。server 方法2 更目錄下增加robots.txt,放在站點根目錄下。在站點可以針...
Nginx防蜘蛛爬蟲處理
假定乙個場景 某個 它可能不希望被網路爬蟲抓取,例如測試環境不希望被抓取,以免對使用者造成誤導,那麼需要在該 中申明,本站不希望被抓取。有如下方法 方法一 修改nginx.conf,禁止網路爬蟲的ua,返回403。server 方法2 更目錄下增加robots.txt,放在站點根目錄下。在站點可以針...
網路蜘蛛爬蟲原理
相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題 1 對抓取目標的描述或定義 2 對網頁或資料的分析與過濾 3 對url的搜尋策略。抓取目標的描述和定義是決定網頁分析演算法與url搜尋策略如何制訂的基礎。而網頁分析演算法和候選url排序演算法是決定搜尋引擎所提供的服務形式和爬蟲網頁抓取行為的關鍵所...