Python爬蟲 百度貼吧

2022-03-26 15:14:51 字數 1334 閱讀 9628

get請求

from urllib import

request

import

urllib

import

time

# #第一頁

# #第二頁 (2-1)*50

# #第三頁 (3-1)*50

# #第四頁 (4-1)*50

#第n頁 (n-1)*50

#推測第一頁:

headers=

#根據url傳送請求,獲取伺服器響應檔案

defloadpage(url,filename):

print("

"+filename)

req=request.request(url,headers=headers)

return

request.urlopen(req).read()

#將html內容寫到本地

defwritepage(html,filename):

print("

正在儲存

"+filename)

with open(filename,"wb

") as f:

f.write(html)

print("

---------------------------

")

deftiebaspider(url,begin,end):

for page in range(begin,end+1):

pn=(page-1)*50fullurl=url+"

&pn=

"+str(pn) #

每次請求的url

filename="

d:/貼吧/第

"+str(page)+"

頁.html"#

每次請求後儲存的檔名

html=loadpage(fullurl,filename) #

呼叫爬蟲,爬取網頁資訊

writepage(html,filename) #

寫入本地

if__name__=='

__main__':

while

(true):

kw=input("

請輸入字條:")

begin=int(input("

請輸入起始頁:"))

end=int(input("

請輸入結束頁:"))

url="

"key=urllib.parse.urlencode()

url=url+key

tiebaspider(url,begin,end)

python百度貼吧爬蟲

coding utf 8 coding utf 8 import urllib import urllib2 import reimport thread import time class bdtb def init self,baseurl,seelz self.baseurl baseurl ...

百度貼吧爬蟲

encoding utf 8 import urllib.request import urllib.parse import time import random def load page url 通過url來獲取網頁內容jfa param url 待獲取的頁面 return url對應的網頁內...

3 百度貼吧爬蟲

被寫檔案坑了一晚上,因為自己寫了writefile 但是呼叫的是writefile 剛好python裡面有writefile 所以剛好不報錯!coding utf 8 created on 2018 7月12號 author sss 型別 get請求 from pip.vendor.distlib....