**如下:
跟著我要自學網的《python爬蟲課程》學習的。
import urllib
from urllib import request
import time
from builtins import str
#構造請求頭資訊
header=
#分析url特點
# #第一頁
# #第二頁
# #第三頁
def loadpage(fullurl,filename):
req=request.request(fullurl,headers=header)
resp=request.urlopen(req).read()
return resp
def writepage(html,filename):
print("正在儲存:",filename)
with open(filename,"wb") as f: #"wb"表示二進位制,以二進位制的形式寫入
f.write(html)
print("---------------------------------------")
def tiebaspider(url,begin,end):
for page in range(begin,end+1):
pn=(page-1)*50
fullurl=url+"&pn="+str(pn) #每次請求的完整url
filename="e:/第"+str(page)+"頁.html" #每次請求後儲存的檔名
html=loadpage(fullurl,filename) #呼叫爬蟲,爬取網頁
writepage(html,filename) #把獲取到的網頁資訊寫入本地
if __name__=="__main__":
kw=input("請輸入貼吧名:")
begin=int(input("請輸入起始頁碼:"))
end=int(input("請輸入結束頁碼:"))
url=""
key=urllib.parse.urlencode()
url=url+key
tiebaspider(url, begin, end)
time.sleep(10)
爬蟲第一次
由於面試的需要,昨天看了下爬蟲,python的,原先一直以為很高階,但是才發現大體思路很清晰。1。連線到要抓取的某網 注意import urllib,比如這個樣子 def gethtml url page urllib.urlopen url html page.read return html 這...
第一次爬蟲
from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...
第一次除錯python爬蟲
建立檔案 vi pic down.py 執行 pic down.py 報錯 permission denied 解決 chmod a x pic down.py 執行 pic down.py 報錯 pic down.py line 1 import command not found 解決 在頭部加...