urlopen() 函式。
proxies =
filehandle = urllib.urlopen(some_url, proxies=proxies)
filehandle = urllib.urlopen(some_url, proxies={})
filehandle = urllib.urlopen(some_url, proxies=none)
filehandle = urllib.urlopen(some_url)
cafile、capath、cadefault 引數:用於實現可信任的ca證書的http請求。(基本上很少用)
context引數:實現ssl加密傳輸。(基本上很少用)
開啟url所指示的網路上的物件->返回乙個類檔案物件。
該物件擁有以下方法:read(),readline(),readlines(),fileno(),close(),info(),getcode() 和geturl(),同時也支援iterator。
**read():**response = urllib.request.urlopen(「 -> print(response.read().decode(「utf-8」))
geturl():重定向時,可用geturl()獲得真實的url。
getcode():提交的url不是乙個http的url,那麼getcode()方法返回none,否則返回http響應傳送回來的http狀態碼。
py爬蟲概覽
1 發起請求 使用http庫向目標站點發起請求,即傳送乙個request request包含 請求頭 請求體等 request模組缺陷 不能執行js 和css 2 獲取響應內容 如果伺服器能正常響應,則會得到乙個response 3 解析內容 解析html資料 正規表示式 re模組 第三方解析庫如b...
Py爬蟲自學路線
1.json資料格式 2.python3中的urllib包 官方文件 中文翻譯版 request物件 urllib.parse包 3.http請求頭中user agent使用者 4.重定向 7.utf 8轉換工具 utf 8 unicode acsii學習 8.向檔案追加內容 9.yield使用方法...
記一次Python爬蟲入門
程式思路 程式步驟 2 分析該網頁的 3 findall查詢出所有的url,儲存到list中 4 遍歷list,儲存到本地 程式原始碼 請求網頁 import time import requests import re import os 請求頭部 headers response request...