本文以大眾點評網為例,獲取頁面的餐館資訊,以達到練習使用python的目的。
import urllib.request
import re
def fetchfood(url):
# 模擬使用瀏覽器瀏覽大眾點評的方式瀏覽大眾點評
headers = {'user-agent',
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
data = data.decode('utf')
print('******************************==抓取的頁面資料***********************************====')
print(data) # 列印抓取的頁面
print('******************************==獲取的餐館資訊***********************************=')
foodnameset = set(re.compile(r'
number = 0
for i in foodnameset:
number = number + 1
print("第%d個餐館: %s" % (number, i))
foodurl = ""
fetchfood(foodurl)
輸出結果:
******************************==抓取的頁面資料***********************************====
北京中關村美食-大眾點評網
......此處省略
渝是乎(中關村店)
分店1536條點評
|人均¥42川菜|
中關村 榆樹林1號
口味9.1
環境8.7
服務8.3
......此處省略
******************************==獲取的餐館資訊***********************************=
第1個餐館: 重八牛府(之初入江湖店)
第2個餐館: 紐約客美式餐廳(新中關店)
第3個餐館: chatuchak加都加曼谷潮流甜品
第4個餐館: 新淨雅烹小鮮
第5個餐館: 那家小館(中關村店)
第6個餐館: 穀得一
第7個餐館: 唐廊.樸禪(當代**店)
第8個餐館: 小福樓餐廳
第9個餐館: 食寶街
第10個餐館: 渝是乎(中關村店)
第11個餐館: 品咖啡
第12個餐館: 小吊梨湯(融科店)
第13個餐館: 魚八斗老麻水煮魚(酸菜魚)
第14個餐館: 鰻鰻的愛(新中關購物中心店)
第15個餐館: 速度牛排
process finished with exit code 0
Python 網路爬蟲抓取有道詞典
content input 請輸入需要翻譯的內容 輸入 e 退出程式 if content e break url 有道詞典的請求 head 設定乙個頭部使得瀏覽器認為不是用python進行訪問 head user agent mozilla 5.0 windows nt 10.0 win64 x6...
python 爬蟲 基本抓取
首先,python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取,另外,requests 也是非常有用的。對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用 連線。data requests data為dict,js...
python 爬蟲,抓取小說
coding utf 8 from bs4 import beautifulsoup from urllib import request import re import os,time 訪問url,返回html頁面 defget html url req request.request url ...