Python 爬蟲例項

下面是我寫的乙個簡單爬蟲例項

1.定義函式讀取html網頁的源**

2.從源**通過正規表示式挑選出自己需要獲取的內容

3.序列中的htm依次寫到d盤

#!/usr/bin/python
import re
import urllib.request
#定義函式讀取html網頁的源**
def gethtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
#從源**通過正規表示式挑選出自己需要獲取的內容
def getimg(html):
reg = r'href="(.*?\.htm)"'
imgre = re.compile(reg)
implist = re.findall(imgre,html)
#序列中的htm依次寫到d盤
x = 0
for imgurl in implist:
urllib.request.urlretrieve(imgurl, 'd:\htm\%s.htm' % x)
x += 1
html = gethtml("")
html = html.decode('utf-8')
print(getimg(html))

執行程式結果：

Python爬蟲例項

中國大學排名專案功能描述輸出大學排名資訊的螢幕輸出排名，大學名稱，總分技術路線 requests bs4 定向爬蟲僅對輸入url進行爬取，不擴充套件爬取程式的結構設計步驟1 從網路上獲取大學排名網頁內容步驟2 提取網頁內容中資訊到合適的資料結構二維列表步驟3 利用資料結構展示並...

python 爬蟲例項

coding utf 8 import re import sys import os from time import sleep from bs4 import beautifulsoup import requests reload sys sys.setdefaultencoding utf...

python爬蟲 10 爬蟲例項（6）

coding utf 8 import re import requests import time f open 鬥破蒼穹.txt a def get info url response requests.get url,headers header if response.status code...

Python 爬蟲例項

Python爬蟲例項

python 爬蟲例項

python爬蟲 10 爬蟲例項（6）

相關推薦