urllib模組:
urllib.requests: 開啟和讀取urls
urllib.error: 包含urllib.requests 產生的常見錯誤,使用try捕捉
urllib.parse: 包含即係url方法
urllib.robotparse: 解析robots.txt檔案
網頁編碼問題解決:
chardet 可以自動檢測頁面檔案的編碼格式,可能有誤
urlopen的返回物件:
geturl: 返回請求物件的url
info: 返回請求物件的meta資訊
getcode: 返回http code
request.data:
訪問網路的兩種方法:
get:利用引數給伺服器傳遞資訊,引數為dict,然後用parse編碼
post:一般向伺服器傳遞引數使用,把資訊自動加密處理,如果想使用post資訊,需要使用data引數
使用post,意味著http的請求頭可能需要修改
一旦更改請求方法,需要注意其他請求頭部資訊相適應
request.request
urllib.error: 沒網,伺服器連線失敗, 不知道指定伺服器, os.error子類 一般對應網路出現問題,包括url問題
httperror 對應的http請求的返回碼的錯誤,是urlerror的乙個子類
useragent 使用者**,屬於heads一部分,伺服器通過ua判斷訪問者身份 使用時可以複製,也可以web抓包
設定方式: heads , add_header
python爬蟲學習筆記(1)
2.parse模組 遇到了問題 本人使用了anaconda3中的python3環境,進行爬蟲的環境為anaconda中的spyder,使用anaconda具體詳細原因及安裝教程可見 anaconda3詳細安裝使用教程及問題總結 request就是請求的意思,主要用於url資訊的請求 import u...
python網路爬蟲學習筆記(1)
一 三種網頁抓取方法 1 正規表示式 模組使用c語言編寫,速度快,但是很脆弱,可能網頁更新後就不能用了。2 beautiful soup 模組使用python編寫,速度慢。安裝 pip install beautifulsoup4 3 lxml 模組使用c語言編寫,即快速又健壯,通常應該是最好的選擇...
python爬蟲筆記(1)
人稱君子協議,規定了 中哪些資料是可以被爬取的 哪些 是不可以被爬取的。相比http協議,它是安全的超文字傳輸協議,採用證書金鑰加密 requests模組 python中原生的一款基於網路請求的模組,功能強大,簡單便捷,相對於urllib模組效率更高。作用 模擬瀏覽器傳送請求。如何使用 import...