python爬蟲了解及深入

2021-09-10 17:36:33 字數 1065 閱讀 9435

安裝requests庫

啟動cmd控制台, 安裝requests庫(pip install requests)

測試安裝效果:啟動idle

>>> import requests

>>> r = requests.get("")

>>> r.status_code

200>>> r.encoding = 'utf-8'

>>> r.text

requests庫的get()方法

r = requests.get(url)

1requests庫的2個重要物件:response(包含爬蟲返回的內容)和request

**r.raise_for_status()**requests庫用於檢驗異常

保證網路連線的異常能夠被有效處理

網路爬蟲的限制

**審查:判斷user-agent進行限制

檢查來訪http協議頭的user-agent域,只響應瀏覽器或者友好爬蟲訪問

發布公告:robots協議

告知所有爬蟲**的爬取策略,要求爬蟲遵守

robots協議基本語法

user-agent:*

disallow: / 例項

(1)京東商品頁面的爬取

>>> import requests

>>> r = requests.get(「

>>> r.status_code

200>>> r.encoding

『utf-8』

>>> r.text[:1000]

(2)亞馬遜商品頁面的爬取

>>> import requests

>>> path = "e:"

>>> url = ""

>>> r = requests.get(url)

>>> r.status_code

200>>> with open(path,'wb') as f:

f.write(r.content)

>>> f.close

則儲存在e盤中

Python爬蟲(一) 了解爬蟲

爬蟲即網路爬蟲,即將網上的資源抓取下來。比如在抓取乙個網頁,在這個網中發現一條道路,這個道路就是指向網頁的超連結那就可以抓到該網的資源 瀏覽網頁的過程其實就是使用者輸入 之後,經過dns伺服器,找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器html,js,css等檔案...

Python爬蟲入門(2) 爬蟲基礎了解

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。比如它在抓取乙個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。...

初步了解python爬蟲(摘錄)

1.html 超文字標記語言 2.申明字元型別 3.需關注html css 4.div 5.樹形關係 先輩 父 子 兄弟 後代 6.xpath 從文件中定位元素 可將其理解為語言 從根節點進行選取 從匹配選擇的當前結點來對文件的結點進行選擇 選取當前結點 選擇當前節點的父節點 選擇屬性 html b...