python中寫個爬蟲真是太簡單了
import urllib.request
from pyquery import pyquery as pq
# 根據url獲取內容並解碼為utf-8
def gethtml(url):
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('utf-8')
return html
# 解析返回的html
def getartical(html, results):
doc = pq(html)
# data = doc('.searchatclist .searchatc_top a')
data = doc('.atc_title a')
for x in data.items():
title = x.text()
href = x.attr('href')
if title.find('教你**票') >= 0:
# 標題被截斷的需要根據url獲取完整的標題
if title.find('…') >= 0:
title = getarticaldetail(x.attr('href'))
r = '[' + title + '](' + href + ')'
index = title[5 : title.index(':')]
# 獲取文章標題
def getarticaldetail(url):
html = gethtml(url)
doc = pq(html)
data = doc('.articaltitle h2')
title = data.text()
return title
blog3 = ''
# 1.html
# 15.html
# blog = ''
# blog2 = ''
results =
# 總共有23頁
for i in range(1, 24):
url = blog3 + str(i) + '.html'
print(url)
html = gethtml(url)
getartical(html, results)
# 排序後輸出
results.sort()
for x in results:
print(x[1])
Python 爬蟲爬取網頁
工具 python 2.7 import urllib import urllib2 defgetpage url 爬去網頁的方法 request urllib.request url 訪問網頁 reponse urllib2.urlopen request 返回網頁 return response...
python爬蟲爬取策略
在爬蟲系統中,待抓取url佇列是很重要的一部分。待抓取url佇列中的url以什麼樣的順序排列也是乙個很重要的問題,因為這涉及到先抓取那個頁面,後抓取哪個頁面。而決定這些url排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略 一 深度優先遍歷策略 深度優先遍歷策略是指網路爬蟲會從起始頁開始...
python爬蟲 seebug爬取
1.找相關的標籤一步一步往下查詢 2.有cookie才能查詢 3.用import re而不用from re import 是為了防止衝突 coding utf 8 from requests import import re from bs4 import beautifulsoup as bs h...