初級的話,記住四個步驟:
之後會逐步加深難度並更新的。
需要爬取的網頁位址。url
建立headers 請求頭headers
建立響應體response
獲取的資料html
基本列子:
import urllib
from urllib import request
# 第一步 "user-agent" 可以網上搜。一大堆
headers =
url =
""# 第二步
# 第三步
# 傳入上述的 url 與 headers
rep = urllib.request.request(url=url,headers=headers)
# 第四步
# 建立網頁物件。
res = urllib.request.urlopen(rep)
# print(res.read()) # 二進位制型別
print
(res.read(
).decode(
'utf-8'))
# 轉成字串,列印網頁資料
# print(res.info()) # 響應的資訊。
之後的就是處理資料了,獲取自己想要的
前期入門最主要的是記住這幾個步驟,勤加練習,並且應當熟知資料處理。
python利用urlib2進行簡單爬蟲例項
coding utf 8 import urllib import urllib2 import re import thread import time 糗事百科爬蟲練習 糗事百科爬蟲類 class qsbk 初始化方法,定義一些變數 def init self self.pageindex 1 ...
python3 爬蟲入門(一)urlib庫基本使用
1.什麼是urlib?urllib是python內建的http請求庫 包括以下模組 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser robots.txt解析模組 2.關於urllib.re...
python 爬蟲selenium 安裝與基本使用
這裡先來介紹一下爬蟲瀏覽器,普通爬蟲獲取用抓包的方式獲取要獲取資訊的api,ajax,json,js等 通過請求 來獲取相對應資料。然而,總有一些沒辦法或者分析比較困難的,這個時候就可以使用模擬瀏覽器大發神威了。再來介紹一下爬蟲瀏覽器的種類有 chrome,firefox,ie,phantomjs ...