乙個簡單的爬蟲例項

2021-08-15 08:32:44 字數 2576 閱讀 5241

獲取網頁html文字內容;

#!/usr/bin/python

# coding:utf-8

import

urllib

import

re# 根據url獲取網頁html內容

defgethtmlcontent

(url):

page = urllib.urlopen(url)

return

page.read()

# 從html中解析出所有jpg的url

# 解析jpgurl的正則

jpgreg = re.compile(r') # 注:這裡最後加乙個'width'是為了提高匹配精確度

# 解析出jpg的url列表

):# 用於給命名

re# 根據url獲取網頁html內容

defgethtmlcontent

(url):

page = requests.get(url)

return

page.text

# 從html中解析出所有jpg的url

# 解析jpgurl的正則

jpgreg = re.compile(r') # 注:這裡最後加乙個'width'是為了提高匹配精確度

# 解析出jpg的url列表

# 可自動關閉請求和響應的模組

):# 用於給命名

張'.format(count)

輸出:和前面一樣。

歡迎交流

乙個賊簡單的python爬蟲例項

這真的是乙個很簡單地python爬蟲,但是我卻做到現在了,哎 爬蟲的所有學習都來自於b站 up豬luvm的小屋 import requests import json import os header class douban def init self,url,dir self.url url s...

乙個簡單的百度爬蟲例項

import requests from bs4 import beautifulsoup import json import datetime defgethtml url headers try r requests.get url,headers headers r.raise for st...

乙個簡單的Python爬蟲

乙個簡單測試爬蟲的網頁 1.獲取 的html import urllib.request request urllib.request.urlopen str request.read print str 2.返回網頁標題 輸出目標網頁內title標籤內的文字 gettitle 函式返回網頁的標題,...