程式思路
程式步驟
(2)分析該網頁的**
(3)findall查詢出所有的url,儲存到list中
(4)遍歷list,儲存到本地
程式原始碼
"""請求網頁"""
import time
import requests
import re
import os
"""請求頭部"""
headers =
response = requests.get(
'',headers=headers)
html = response.text
"""解析網頁"""
# 提取網頁名,用於儲存的資料夾名
dir_name = re.findall(
'(.*?)'
,html)[-
1]ifnot os.path.exists(dir_name)
: os.mkdir(dir_name)
# 提取所有的url
urls = re.findall(
'',html)
print
(urls)
"""儲存"""
for i in
range
(len
(urls)):
# 延遲
time.sleep(1)
# 的名字
記一次手寫python爬蟲的經歷
前幾日,一位朋友在用python寫爬蟲的時候遇到問題,向我諮詢。然而我python幾乎連門都沒有入,水平就停留在這篇文章的程度上。但是受人所託,並且看起來問題也不難,於是不得已為之,花了大半個晚上才解決。畢竟我菜 問題是這樣的,想要獲取這個 的虛擬貨幣型別,成交額,漲幅等資料,按理是很簡單的。但是據...
記第一次爬蟲
出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...
記第一次爬蟲
在學習爬蟲的過程中,我首先進行的是對豆瓣top250的爬取,步驟可分為如下幾步 第一步 抓包 url 第二步 請求url 第三步 解析,提取出我需要的資訊 第四步 存入檔案 首先我對豆瓣的網頁進行了分析,開啟要抓取的網頁,f12 f5,這樣你就可以看到網頁原始碼了,進入到network,找到要抓取的...