python網路爬蟲

實現**如下：

import requests
from bs4 import beautifulsoup
import os
def gethtmlurl(url):         #獲取**
try:
r=requests.get(url)
r.raise_for_status()
return r.text
except:
return ""
count=0
soup = beautifulsoup(html, 'html.parser')
all_tr = soup.find_all('tr', class_=true)
for tr in all_tr:
count+=1
src=tr.find_all('td')[1].find('img')['src'][1:]
img_url = "" + src
print(img_url)
root = 'd:/pic/'
path = root + img_url.split('/')[-1]
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r = requests.get(img_url)
with open(path, 'wb') as f:
f.write(r.content)
f.close()
print("檔案儲存成功")
else:
print("檔案已存在")
except:
print("爬取失敗")

備註：如上圖所示的reg=r""""""

以下語句可實現在整個html中查詢所有的

reg=r""""""
reg = re.compile(reg)  #
imageslink = reg.findall(html)   #在html文件中查詢所有的鏈結

Python網路爬蟲

找到url，也就是相當於入口，找到你要爬取的鏈結，獲取整個頁面資料使用正規表示式，匹配到你想要爬取的內容，這裡使用的主要是正規表示式和一些常用的開源庫最後一步就是寫入文字以及儲存問題了，如文字檔案資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼，所謂網路爬蟲就是從某乙個頁面通常是首頁開始，讀取網頁的內容，找到在網頁中的其它鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，這樣一直迴圈下去，直到把這個所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是，從爬去尋找關鍵...

python網路爬蟲

前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容可以匹配多位數字可以匹配用逗號隔開的數字可以匹配一位的數字可以匹配帶小數點的數字匹配空白符匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然，爬蟲還有乙個很關鍵的就通...

python網路爬蟲

Python網路爬蟲

python網路爬蟲

python網路爬蟲

相關推薦