通過在網頁上右鍵來檢視審查元素,然後在html內可以發現以下內容,而爬蟲也正是要爬取這些內容。
# 處理標籤開始
defstart_element
(self, name, attrs):
if name != 'map':
name = attrs['title']
number = attrs['href']
# 處理標籤結束
defend_element
(self, name):
pass
# 文字處理
defchar_data
(self, text):
pass
defget_province_entry
(url):
# 獲取文字,並用gb2312解碼
content = requests.get(url).content.decode('gb2312')#編碼方式
# print(content)
# 確定要查詢字串的開始結束位置,並用切片獲取內容。
#開始和結束標誌
start = content.find('')
end = content.find('')
# print(start,end)
content = content[start:end + len('')].strip()
#print(content)
provinces =
# 生成sax處理器
handler = defaultsaxhandler(provinces)
# 初始化分析器
parser = parsercreate()
parser.startelementhandler = handler.start_element
parser.endelementhandler = handler.end_element
parser.characterdatahandler = handler.char_data
# 解析資料
parser.parse(content)
# 結果字典為每一頁的入口**
return provinces
#從哪個頁面進入
簡單python爬蟲例項
先放上url,這是豆瓣的乙個 排行榜,這裡爬取了左邊部分的歌曲排行榜部分,爬蟲很簡單,就用到了beautifulsoup和requests這兩個庫,爬取後分吧把內容儲存到txt,csv和資料庫 0x01 儲存到txt import requests from bs4 import beautiful...
簡單的python爬蟲例項
目標 爬取搜尋出來的所有 中東人 的 先說一下思路 來看爬取的 import requests import re from bs4 import beautifulsoup address url list 用於儲存,每個頁面的url列表 構造url def get url list for i ...
python爬蟲簡單 python爬蟲 簡單版
學過python的帥哥都知道,爬蟲是python的非常好玩的東西,而且python自帶urllib urllib2 requests等的庫,為爬蟲的開發提供大大的方便。這次我要用urllib2,爬一堆風景。先上重點 1 response urllib2.urlopen url read 2 soup...