首先,python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取,另外,
requests
也是非常有用的。
對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用&連線。
data =
requests:data為dict,json
import requests
response = requests.get(url=url, params=data)
urllib2:data為string
import urllib, urllib2
data = urllib.urlencode(data)
full_url = url+'?'+data
response = urllib2.urlopen(full_url)
re庫.group():a=
"123abc456"
print re.
search
("([0-9]*)([a-z]*)([0-9]*)",a
).group(0
)#123abc456,返回整體
print re.
search
("([0-9]*)([a-z]*)([0-9]*)",a
).group(1
)#123
print re.
search
("([0-9]*)([a-z]*)([0-9]*)",a
).group(2
)#abc
print re.
search
("([0-9]*)([a-z]*)([0-9]*)",a
).group(3
)#456
python 爬蟲,抓取小說
coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...
Python爬蟲抓取(一)
開啟cmd 1.新建虛擬環境virtualenv 環境名稱,主要是我們開發乙個專案,不可能在源目錄下進行開發,新建虛擬目錄可以不汙染源環境,可以切換到你需要新建的目錄下再建,預設在python的安裝目錄下 2.進入虛擬環境 cd 環境名稱 3.啟用虛擬環境 scripts activate 4.在虛...
Python爬蟲抓取笑話
總結 隨著python語言的不斷發展,爬蟲這門技術也越來越重要,很多人都開啟了自己的爬蟲之路,本文就介紹了爬蟲的功能。跟著我帶你走進爬蟲的大門 爬蟲是可以有規則的提取html的內容,獲取到我們需要的物件,爬蟲的高效和簡單讓我們爬蟲愛好者更加喜歡它 如下 示例 import requests impo...