python爬蟲簡單版

2021-10-07 04:56:40 字數 1334 閱讀 4652

關於爬蟲的合法性幾乎每乙個**都有乙個名為 robots.txt 的文件,當然也有部分**沒有設定 robots.txt。對於沒有設定 robots.txt 的**可以通過網路爬蟲獲取沒有口令加密的資料,也就是該**所有頁面資料都可以爬取。如果**有 robots.txt 文件,就要判斷是否有禁止訪客獲取的資料。

以**網為例,在瀏覽器中訪問

**網允許部分爬蟲訪問它的部分路徑,而對於沒有得到允許的使用者,則全部禁止爬取,**如下:

user-agent:

*disallow:

/

爬蟲的基本原理網頁請求的過程分為兩個環節:

1.request (請求):每乙個展示在使用者面前的網頁都必須經過這一步,也就是向伺服器傳送訪問請求。

2.response(響應):伺服器在接收到使用者的請求後,會驗證請求的有效性,然後向使用者(客戶端)傳送響應的內容,客戶端接收伺服器響應的內容,將內容展示出來,就是我們所熟悉的網頁請求,如圖 所示。

網頁請求的方式:get:最常見的方式,一般用於獲取或者查詢資源資訊,也是大多數**使用的方式,響應速度快。

使用 get 方式抓取資料複製任意一條首頁眉條新聞的標題,在原始碼頁面按【ctrl+f】組合鍵調出搜尋框,將標題貼上在搜尋框中,然後按【enter】鍵。

import requests        #匯入requests包

url =

'**位址'

strhtml = requests.get(url)

#get方式獲取網頁資料

print

(strhtml.text)

載入庫使用的語句是 import+庫的名字。在上述過程中,載入 requests 庫的語句是:import requests。

用 get 方式獲取資料需要呼叫 requests 庫中的 get 方法,使用方法是在 requests 後輸入英文點號,如下所示:

requests.get
將獲取到的資料存到 strhtml 變數中,**如下:

strhtml = request.get(url)
這個時候 strhtml 是乙個 url 物件,它代表整個網頁,但此時只需要網頁中的原始碼,下面的語句表示網頁原始碼:

python爬蟲簡單 python爬蟲 簡單版

學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...

網頁版簡單爬蟲

爬取requests beautifulsoup import requests import mysqldb from bs4 import beautifulsoup url 瀏覽器獲取url defget page url response requests.get url soup beau...

簡單python爬蟲

一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 一段簡單的 python 爬蟲程式,用來練習挺不錯的。讀出乙個url下的a標籤裡href位址為.html的所有位址 usr bin python filename test.py im...