這真的是乙個很簡單地python爬蟲,但是我卻做到現在了,哎~
爬蟲的所有學習都來自於b站
up豬luvm的小屋
import requests
import json
import os
header =
class
douban
:def
__init__
(self, url,
dir)
: self.url = url
self.
dir=
dir self.tv_name =
self.tv_picture =
defget_sourcename
(self)
:print
("開始獲取劇名和劇照................"
) response = requests.get(self.url,headers=header)
rejson = json.loads(response.content.decode())
x =0 count=
len(rejson[
"subjects"])
print
(count)
if count==0:
return x
for x in
range
(count)
:"subjects"
][x]
["title"])
"subjects"
][x]
["cover"])
print
("獲取了"
,x+1
,"張劇照!"
)return x+
1def
get_source
(self)
:print
("開始儲存到本地................"
("儲存成功!"
)if __name__ ==
"__main__"
: url =
""#input("輸入豆瓣**:")
dir=
"douban_{}_dramas"
#input("輸入儲存資料夾:")
type_of_opera=
input
("請輸入電視的種類(熱門 美劇 英劇 韓劇 日劇 國產劇 港劇 日本動畫 綜藝 紀錄片):"
) director=
input()
dir=
dir.
format
(director)
if os.path.exists(
dir)==0
: os.mkdir(
dir)
page=
1print
("開始獲取:"
)while page:
print
("第"
, page,
"次獲取:"
) urllist=url.
format
(type_of_opera,
(page-1)
*20)print
(urllist)
db = douban(urllist,
dir)
stop = db.get_sourcename(
) db.get_source(
) page+=
1if stop <20:
print
("獲取結束!"
)print
("總共獲取了"
,(page-2)
*20+stop,
"張劇照"
)break
寫了個賊簡單的爬蟲
import urllib.request import re 內庫 標準庫 import json from bs4 import beautifulsoup url index url html urllib.request.urlopen index url bsobj beautifulso...
乙個簡單的Python爬蟲
乙個簡單測試爬蟲的網頁 1.獲取 的html import urllib.request request urllib.request.urlopen str request.read print str 2.返回網頁標題 輸出目標網頁內title標籤內的文字 gettitle 函式返回網頁的標題,...
python 乙個簡單的貪婪爬蟲
這個爬蟲的作用是,對於乙個給定的url,查詢頁面裡面所有的url連線並依次貪婪爬取 主要需要注意的地方 1.lxml.html.iterlinks 可以實現對頁面所有url的查詢 2.獲取頁面要設定超時,否則遇到沒有響應的頁面,容易卡死 3.對所有異常的捕獲 4.廣度優先搜尋實現 具體 如下 usr...