python網路爬蟲

2021-09-25 18:55:47 字數 4112 閱讀 9062

分為下列幾個步驟

1.檢視存在的數量

此為設定的獲取網頁的內容設定的時間為7秒

result = result.text

切記之後使用的re使用的正規表示式要用檔案的text格式

使用正規表示式

pic_url = re.findall('"objurl":"(.*?)",', html, re.s)  # 先利用正規表示式找到url

pic_url = re.findall('"objurl":"(.*?)",', html, re.s) # 先利用正規表示式找到url

注意需要呼叫content方法

最後給出源**

#coding=gbk

'''created on 2023年7月17日

print('正在檢測總數,請稍等.....')

t = 0

i = 1

s = 0

while t < 1000:

url = url + str(t)

try:

result = requests.get(url, timeout=7)

except baseexception:

t = t + 60

continue

else:

result = result.text

pic_url = re.findall('"objurl":"(.*?)",', result, re.s) # 先利用正規表示式找到url

pic_url = re.findall('"objurl":"(.*?)",', html, re.s) # 先利用正規表示式找到url

if __name__ == '__main__': # 主函式入口

#add = ''

url = '' + word + '&pn='

tot = find(url)

print('經過檢測%s類共有%d張' % (word, tot))

file = input('請建立乙個儲存的資料夾,輸入資料夾名稱即可')

y = os.path.exists(file)

if y == 1:

print('該檔案已存在,請重新輸入')

file = input('請建立乙個儲存的資料夾,)輸入資料夾名稱即可')

print('網路錯誤,請調整網路後重試')

t = t+60

else:

dowmloadpicture(result.text, word)

t = t + 60

print('當前搜尋結束,感謝使用')

print('猜你喜歡')

for re in recommend:

print(re, end=' ')

Python網路爬蟲

找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...

python網路爬蟲

前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容 可以匹配多位數字 可以匹配用逗號隔開的數字 可以匹配一位的數字 可以匹配帶小數點的數字 匹配空白符 匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然,爬蟲還有乙個很關鍵的就通...