urlparse() 、urlunparse()
函式: urllib.parse.urlparse(urlstring, scheme='', allow_fragments=ture)
urlstring: 必填項。 scheme: 預設協議。
allow_fragments: 選擇是否忽略。如果它被設定為false, fragment部分
就會就會被忽略
返回乙個元組
scheme:協議, netloc:網域名稱, path:訪問路徑,
params:引數, query: 查詢條件, fragment:錨點
urllib.parse.urlunparse()
此函式接受乙個可迭代物件,必須傳遞6個引數!
不會單獨解析param,將其與path合併
urlunsplit()
urljoin()
提供乙個基礎鏈結(base_url)作為第乙個引數,將新鏈結作為第二個引數。
該方法會分析base_url的schme, netloc, path這三個內容對新鏈結缺失的部分進行補充,返回最後的結果
print
(urljoin(
'','faq.html'))
print
(urljoin(
'',''))
print
(urljoin(
'/about.html'
,''))
urlcode()、pares_qs()、pares_qsl()urlcode(): 常用於構造get方法,傳入乙個字典
pares_qs(): 將get引數轉化為字典
pares_qsl(): 將get引數轉化為元組組成的列表
params =
base_url =
''url = base_uel+urlencode(params)
print
(url)
quote()、unquote()quote():將內容轉化為url編碼格式
unquote(): 將內容進行解碼
keyword =
'孫全剛'
url =
''+ quote(keyword)
print
(url)
# 輸出:%e5%ad%99%e5%85%a8%e5%88%9a
url =
'%e5%ad%99%e5%85%a8%e5%88%9a'
print
(unquote(url)
)# 輸出:孫全剛
python3爬蟲資料解析實戰
如圖所示,我想獲取中畫紅框的src路徑 這裡我們用urlib請求下來資料,然後用beautifulsoup解析資料 python3 from bs4 import beautifulsoup import urllib.request url response urllib.request.urlo...
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...
python3 爬蟲入門
這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...