Python 爬蟲學習筆記1

urllib模組:

urllib.requests: 開啟和讀取urls

urllib.error: 包含urllib.requests 產生的常見錯誤，使用try捕捉

urllib.parse: 包含即係url方法

urllib.robotparse: 解析robots.txt檔案

網頁編碼問題解決：

chardet 可以自動檢測頁面檔案的編碼格式，可能有誤

urlopen的返回物件：

geturl: 返回請求物件的url

info: 返回請求物件的meta資訊

getcode: 返回http code

request.data:

訪問網路的兩種方法：

get：利用引數給伺服器傳遞資訊，引數為dict，然後用parse編碼

post：一般向伺服器傳遞引數使用，把資訊自動加密處理，如果想使用post資訊，需要使用data引數

使用post，意味著http的請求頭可能需要修改

一旦更改請求方法，需要注意其他請求頭部資訊相適應

request.request

urllib.error: 沒網，伺服器連線失敗，不知道指定伺服器， os.error子類一般對應網路出現問題，包括url問題

httperror 對應的http請求的返回碼的錯誤，是urlerror的乙個子類

useragent 使用者**，屬於heads一部分，伺服器通過ua判斷訪問者身份使用時可以複製，也可以web抓包

設定方式： heads ， add_header

python爬蟲學習筆記（1）

2.parse模組遇到了問題本人使用了anaconda3中的python3環境，進行爬蟲的環境為anaconda中的spyder，使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思，主要用於url資訊的請求 import u...

python網路爬蟲學習筆記（1）

一三種網頁抓取方法 1 正規表示式模組使用c語言編寫，速度快，但是很脆弱，可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫，速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫，即快速又健壯，通常應該是最好的選擇...

python爬蟲筆記（1）

人稱君子協議，規定了中哪些資料是可以被爬取的哪些是不可以被爬取的。相比http協議，它是安全的超文字傳輸協議，採用證書金鑰加密 requests模組 python中原生的一款基於網路請求的模組，功能強大，簡單便捷，相對於urllib模組效率更高。作用模擬瀏覽器傳送請求。如何使用 import...

Python 爬蟲學習筆記1

python爬蟲學習筆記（1）

python網路爬蟲學習筆記（1）

python爬蟲筆記（1）

相關推薦