錯誤如下
但是第一次爬取就可以,有大佬可以指導一下
**如下:
#encoding:utf-8
import requests
import re
import time
def gethtml1(url):
bs =
r=requests.get(url,headers=bs,timeout=60)
pattern = ""
href = re.findall(pattern, r.text, re.s)
pattern = "(.*?) "
names = re.findall(pattern, r.text, re.s)
infolist =
for i in range(len(href)):
tittle = names[i]
url = "" + href[i]
for i in range(len(infolist)):
print(infolist[i])
def gethtml2(url):
bs =
r = requests.get(url, headers=bs, timeout=60)
pattern=""
name=re.findall(pattern,r.text,re.s)
print(name)
pattern = "(.*?)"
href = re.findall(pattern,r.text,re.s)
print(len(href))
print("將.com 後的括號去掉即可正確訪問")
for i in range(len(href)):
print("www.maomitt9.com",end="")
print(href[i])
def start():
scale = 50
print("執行開始")
start=time.perf_counter()
for i in range(101):
a = '|'*i
b = ''*(scale-i)
c = ((i/scale)*100)/2
dur = time.perf_counter()-start
print("\r%[{}->{}]s".format(c,a,b,dur),end="")
time.sleep(0.01)
print("\n執行結束")
if __name__ == '__main__':
url=""
start()
gethtml1(url)
while(1):
try:
#url = "/dm/rbdm/12948.html"
url2=input("輸入要爬取下級頁面的網頁(僅支援具有集數的欄目):")
gethtml2(url2)
print("請等待!")
time.sleep(5)
except:
print("失敗!")
print("請等待!")
time.sleep(5)
效果如下
二級頁面爬取效果如下:
Python爬蟲之爬蟲概述
知識點 模擬瀏覽器,傳送請求,獲取響應 網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬客戶端 主要指瀏覽器 傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。知識點 了解 爬蟲的概念 爬蟲在網際網路世界中有很多的作用,比如 資料採集 抓取招聘 的招聘資訊 資料分析 挖掘...
python爬蟲感悟 Python之爬蟲有感(一)
urllib.request.request url headers headers user agent 是爬蟲和反爬蟲鬥爭的第一步,傳送請求必須帶user agent 使用流程 1 建立請求物件 request urlllib.request.request url 2 傳送請求獲取響應物件 r...
python爬蟲header 爬蟲之header
有些 不會同意程式直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以為了完全模擬瀏覽器的工作,我們需要設定一些headers 的屬性。首先,開啟我們的瀏覽器,除錯瀏覽器f12,我用的是chrome,開啟網路監聽,示意如下,比如知乎,點登入之後,我們會發現登陸之後介面都變化了,出現乙...