#-*- coding: utf-8 -*-import urllib
import urllib2
import re
#頁面為1
page=1
url=''+str(page)
#需要header驗證
user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)'
headers =
try:
#獲取位址
request=urllib2.request(url,headers=headers)
#開啟連線
response=urllib2.urlopen(request)
#輸出讀取內容
#print response.read()
content=response.read().decode('utf-8')
# 去奇趣百科找不帶的段子結構,匹配正則,糗百的標籤會不定時改變,正則可能要重新匹配
pattern = re.compile(
'(.*?).*?vote.*?number">(.*?).*?comments.*?number">(.*?)',
re.s)
#(.*?).*?(.*?)
items=re.findall(pattern,content)
for item in items:
print item[0],item[1],item[3]
except urllib2.urlerror,e:
if hasattr(e,'code'):
print e.code
if hasattr(e,'reason'):
print e.reason
python爬取糗百第一頁的笑話
自學python網路爬蟲,發現request比urllib還是要好用一些,因此利用request和beautifulsoup來實現糗百的首頁笑話的抓取。beautifulsoup通過find和findall以及利用正規表示式實現html對應模組的抓取,當然select也是乙個不錯的選擇。下面是臨時的...
Python爬取網頁內容
其時序圖如圖所示。給定乙個要訪問的url,獲取這個html及內容,遍歷html中的某一類鏈結,如a標籤的href屬性,從這些鏈結中繼續訪問相應的html頁面,然後獲取這些html的固定標籤的內容,如果需要多個標籤內容,可以通過字串拼接,最後通過正規表示式刪除所有的標籤,最後將其中的內容寫入.txt檔...
PYTHON爬蟲學習 糗事百科內容爬取
改了半天,終於按照自己的設想把這東西做出來了,趕快把自己的心得寫下來。首先上原始碼 先觀察各網頁間的 規律,構建出 變數,通過for迴圈實現多頁內容的爬取 構建乙個自定義的函式,來爬取我們想要的內容 開始還是模擬chrome瀏覽器進行訪問。因為爬取的主要是使用者的id和使用者發表的段子這倆部分內容,...