用到的庫:urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。
from基本的思路是: 【用request.urlopen()開啟網頁】 -> 【url.read().decode() 得到網頁原始碼】 -> 【re模組正規表示式得到gif檔案的url】 -> 【request.retrieve()爬取資料】urllib import
request
fori in
range(1
,5): # 由於這個網頁只有5頁
url_0 =
''+str(i)+
'.html'
response = request.urlopen(url_0) # 開啟url,注意這個時候的結果應該是2/8/16進製制
html = response.read().decode('utf-8') # 用utf-8編譯
pattern ='/xieedongtaitu/\d.html'
# 根據html的結果裡,手動找到html,寫正規表示式
article_list += re.findall(pattern,html) # 找到所有子鏈結
forarticle in
article_list:
article =
''+article # 注意到子連線並不完整,所以加上前面的部分
file_w =重複一下上述過程,得到gif檔案的鏈結,然後open('html.txt'
,'a')
for
i in
article_list2:
file_w.write(i+
',') # 由於我並不會爬蟲,所以還是建乙個txt儲存一下,不然一直重複讀html很費時
file_w.close()
defget_gif_file():
add =
open('gif_html.txt'
,'r').read().split('
\n')
for
i in
add:
request.urlretrieve(i ,i[-
17:]) # 爬取檔案
完整**:
get_gif_file()寫的真糙啊。。。。。_(:з」∠)_
Python爬蟲筆記
import requests 匯入requests模組 1.傳送請求 import requests r requests.get 2.定製headers 這種情況適用於爬取返回的結果出現 抱歉 無法訪問 等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態 import requests r re...
Python 爬蟲筆記
requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...
python筆記 爬蟲
正規表示式 ref 爬ref 更新了一下 版本,刪去了函式調取。1.urllib re實現 import urllib.request import re url 根據url獲取網頁html內容 page urllib.request.urlopen url html page.read 從html...