Python筆記爬蟲

用到的庫：urllib。在python3.x中 urlretrieve函式也在urllib.request下，因此只需要匯入request即可。

from 
urllib import 
request

基本的思路是：【用request.urlopen()開啟網頁】 -> 【url.read().decode() 得到網頁原始碼】 -> 【re模組正規表示式得到gif檔案的url】 -> 【request.retrieve()爬取資料】

for 
i in 
range(1
,5):        # 由於這個網頁只有5頁
url_0 = 
''+str(i)+
'.html'
response = request.urlopen(url_0)       # 開啟url，注意這個時候的結果應該是2/8/16進製制
html = response.read().decode('utf-8')        # 用utf-8編譯

pattern =

'/xieedongtaitu/\d.html'

# 根據html的結果裡，手動找到html，寫正規表示式

article_list += re.findall(pattern,html) # 找到所有子鏈結

for

article in

article_list:

article =

''+article # 注意到子連線並不完整，所以加上前面的部分

file_w = 
open('html.txt'
,'a')
for 
i in 
article_list2:
file_w.write(i+
',')                # 由於我並不會爬蟲，所以還是建乙個txt儲存一下，不然一直重複讀html很費時
file_w.close(）

重複一下上述過程，得到gif檔案的鏈結，然後

def 
get_gif_file():
add = 
open('gif_html.txt'
,'r').read().split('
\n')
for 
i in 
add:
request.urlretrieve(i ,i[-
17:])        # 爬取檔案

完整**：

get_gif_file()寫的真糙啊。。。。。_(:з」∠)_

Python爬蟲筆記

import requests 匯入requests模組 1.傳送請求 import requests r requests.get 2.定製headers 這種情況適用於爬取返回的結果出現抱歉無法訪問等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態 import requests r re...

Python 爬蟲筆記

requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4，一切暴露在網際網路中的資料，都不是絕對安全的，但絕對是需要費腦筋才需要得到的，爬蟲很簡單學，真正難的是反爬。requests 模組常用方法單次請求每傳送一次請求，就需要呼叫一次多次請求 ...

python筆記爬蟲

正規表示式 ref 爬ref 更新了一下版本，刪去了函式調取。1.urllib re實現 import urllib.request import re url 根據url獲取網頁html內容 page urllib.request.urlopen url html page.read 從html...

Python筆記 爬蟲

Python爬蟲筆記

Python 爬蟲筆記

python筆記 爬蟲

相關推薦

Python筆記爬蟲

python筆記爬蟲