python爬蟲了解及深入

安裝requests庫

啟動cmd控制台，安裝requests庫（pip install requests）

測試安裝效果：啟動idle

>>> import requests
>>> r = requests.get("")
>>> r.status_code
200>>> r.encoding = 'utf-8'
>>> r.text

requests庫的get()方法

r = requests.get(url)

1requests庫的2個重要物件：response（包含爬蟲返回的內容）和request

**r.raise_for_status()**requests庫用於檢驗異常

保證網路連線的異常能夠被有效處理

網路爬蟲的限制

**審查：判斷user-agent進行限制

檢查來訪http協議頭的user-agent域，只響應瀏覽器或者友好爬蟲訪問

發布公告：robots協議

告知所有爬蟲**的爬取策略，要求爬蟲遵守

robots協議基本語法

user-agent:*

disallow: / 例項

（1）京東商品頁面的爬取

>>> import requests

>>> r = requests.get(「

>>> r.status_code

200>>> r.encoding

『utf-8』

>>> r.text[:1000]

（2）亞馬遜商品頁面的爬取

>>> import requests
>>> path = "e:"
>>> url = ""
>>> r = requests.get(url)
>>> r.status_code
200>>> with open(path,'wb') as f:
f.write(r.content)  
>>> f.close

則儲存在e盤中

Python爬蟲（一）了解爬蟲

爬蟲即網路爬蟲，即將網上的資源抓取下來。比如在抓取乙個網頁，在這個網中發現一條道路，這個道路就是指向網頁的超連結那就可以抓到該網的資源瀏覽網頁的過程其實就是使用者輸入之後，經過dns伺服器，找到伺服器主機，向伺服器發出乙個請求，伺服器經過解析之後，傳送給使用者的瀏覽器html,js,css等檔案...

Python爬蟲入門（2）爬蟲基礎了解

爬蟲，即網路爬蟲，大家可以理解為在網路上爬行的一直蜘蛛，網際網路就比作一張大網，而爬蟲便是在這張網上爬來爬去的蜘蛛咯，如果它遇到資源，那麼它就會抓取下來。想抓取什麼？這個由你來控制它咯。比如它在抓取乙個網頁，在這個網中他發現了一條道路，其實就是指向網頁的超連結，那麼它就可以爬到另一張網上來獲取資料。...

初步了解python爬蟲（摘錄）

1.html 超文字標記語言 2.申明字元型別 3.需關注html css 4.div 5.樹形關係先輩父子兄弟後代 6.xpath 從文件中定位元素可將其理解為語言從根節點進行選取從匹配選擇的當前結點來對文件的結點進行選擇選取當前結點選擇當前節點的父節點選擇屬性 html b...

python爬蟲了解及深入

Python爬蟲（一） 了解爬蟲

Python爬蟲入門（2） 爬蟲基礎了解

初步了解python爬蟲（摘錄）

相關推薦

Python爬蟲（一）了解爬蟲

Python爬蟲入門（2）爬蟲基礎了解