用Python寫爬蟲 1 背景介紹

在爬取**之前，需要對**規模和結構了解，常常會借助**自身的robot.txt以及sitemap檔案，還有比如外部工具：google搜尋和whois。

1. 檢查robot.txt

該檔案可以讓爬蟲了解爬取該**時存在哪些限制，以及一些**結構線索，通常如下結構

例1、禁止所有搜尋引擎訪問**的任何部分

user-agent: *

disallow: /

例2、允許所有的robot訪問

user-agent: *

disallow:

（或者也可以建乙個空檔案 "/robots.txt" file）

例3、禁止某個搜尋引擎的訪問

user-agent: badbot

disallow: /

例4、允許某個搜尋引擎的訪問

3. 識別**所用技術

運用pip builtwith模組：

pip install builtwith

>>> import builtwith
>>> builtwith.parse('')

4. 獲取**所用者

可以使用whots協議查詢網域名稱註冊者是誰，python對該協議有對應的封裝庫，

pip install python-whois

>>> whois.whois('')

用python寫爬蟲（一）初識爬蟲

爬蟲又被稱之為網路蜘蛛網路機械人等，簡單來說就是模擬客戶端傳送網路請求，接收請求響應，按照一定的規則自動的抓取網際網路資訊的程式。1.從個人角度來說，爬蟲可以做我們的生活助手。2.從商業角度來說，爬蟲能實現巨大的商業價值。網路爬蟲根據系統結構和開發技術大致可以分為四種型別通用網路爬蟲聚焦網路爬...

用python寫爬蟲簡單嗎

所謂網路爬蟲，通俗的講，就是通過向我們需要的url發出http請求，獲取該url對應的http報文主體內容，之後提取該報文主體中我們所需要的資訊。下面是乙個簡單的爬蟲程式 http基本知識當我們通過瀏覽器訪問指定的url時，需要遵守http協議。本節將介紹一些關於http的基礎知識。http基本流...

1 背景介紹

為某個物件提供乙個以控制對這個物件的訪問。類和委託類有共同的父類或父介面，這樣在任何使用委託類物件的地方都可以用物件替代。類負責請求的預處理過濾將請求分派給委託類處理以及委託類執行完請求後的後續處理。為了保持行為的一致性，類和委託類通常會實現相同的介面，所以在訪問者看來兩者沒有絲毫的區別。...

用Python寫爬蟲 1 背景介紹

用python寫爬蟲（一）初識爬蟲

用python寫爬蟲簡單嗎

1 背景介紹

相關推薦