作為python爬蟲初學者,想用用筆記記錄一下學到的知識點,畢竟書看完就吃灰,還是得習慣電子筆記才是。內容簡略,僅供參考。
1.**示例:
import urllib.request
response = urllib.request.urlopen(
'請求的url'
)
這樣就完成了最簡單的請求,接下來就可以進行提取資訊等操作了。
urlopen()函式還可以傳入其他可選引數,data(構造post請求,傳入的資料應用bytes()方法轉化為位元組流編碼格式),timeout(超時時間,單位是秒)
2.**示例:
request構造請求:
import urllib.request
request = urllib.request.request( url,data(位元組流)
,headers(請求頭)
,origin_req_host(請求方ip)
,unverifiable(預設false
,請求是否驗證)
,method(字串,指定請求方法)
)
1.**示例:
from urllib.parse import urlparse
result = urlparse(url)
urlparse()方法拆解url,相反urlunparse()方法合成url。
2.**示例:
from urllib.parse import urlencode
params =
base_url =
''url = base_url + urlencode(params)
print
(url)
執行得到結果:
18urlencode()非常好用,可以把引數用字典表示,然後可以直接構造。
Python之爬蟲學習記錄簿(3)
基本庫更完了,更一下re,當然只是用於提取資訊的簡略內容。re官方文件 re文件 1,match 嘗試從字串起始位置匹配正規表示式,如果匹配,返回匹配成功的結果,否則返回none。匹配任意盡可能多的字元,匹配盡可能少的任意字元。2,search 掃瞄整個字串,返回第乙個匹配成功的結果。3,finda...
Python之爬蟲學習(七) 問題記錄
1 ip質量問題 獲取到的 ip可能會失效,所以需要多次校驗ip的質量及記錄問題url重新請求 獲取時校驗 獲取可用ip print self.urlproxylist 使用時再次校驗 def getusefulproxy self proxy random.choice self.urlproxy...
python爬蟲入門學習記錄
在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了 pip install requests pip install beautifulsoup4 beautifulsoup4使用手冊 簡單的示列 import requests 匯入requests包 url strh...