from selenium import webdriver
import requests
import time
import os
url =
''driver = webdriver.
chrome
('c:\chromedriver_win32\chromedriver.exe'
)driver.
get(url)
file1 =
open
(r"c:\users\18321\desktop\2020python\doubantop250name.txt"
,"w"
)path=r'c:\users\18321\desktop\2020python'
#儲存的資料夾名稱及路徑
dir_name =
'./doubantop250picture'
#os包建立乙個資料夾
if not os.path.
exists
(dir_name)
: os.
mkdir
(path+dir_name)
#通過for迴圈網頁,儲存所以的資訊
for x in
range(10
):#找到名字儲存資訊的位置,通過xpath儲存
lis = driver.
find_elements_by_xpath
('//ol[@class="grid_view"]/li'
) #所以的資訊都儲存到了xpath,在用迴圈去找裡面的資訊
for li in lis:
#名稱儲存在乙個屬性為title的span盒子裡
span = li.
find_elements_by_xpath
('.//span[@class="title"]')[
0]#轉換為文字資訊
title = span.text
print
(title)
#將名稱儲存的指定的txt文件中再換行
file1.
write
(title+
'\r\n'
) file1.close
#鏈結儲存在了乙個屬性為pic的div內
img = li.
find_element_by_xpath
('.//div[@class="pic"]//img'
) src = img.
get_attribute
('src'
)# print
(src)
picture_name = src.
split
('/')[
-1] reponse = requests.
get(src)
#通過os和with open 將儲存到乙個資料夾內
with
open
(dir_name+
'/'+picture_name,
'wb'
)as f:
f.write
(reponse.content)
next = driver.
find_elements_by_xpath
('//span[@class="next"]/a')if
len(next)
>0:
next[0]
.click()
time.
sleep(1
)driver.
quit
()
python練習簡單爬取豆瓣網top250電影資訊
因為有的電影詳情裡沒有影片的又名,所以沒有爬取電影的又名。基本思路 爬取top250列表頁展示中電影的排行榜排名,電影詳情鏈結,電影名稱。然後通過電影鏈結進入到詳情頁,獲取詳情頁的原始碼,再進行爬取,爬取後的資料儲存在字典中,通過字典儲存在mongo資料庫中的。from urllib.request...
爬蟲教程 用Scrapy爬取豆瓣TOP250
文章首發於 guanngxu 的個人部落格 用scrapy爬取豆瓣top250 最好的學習方式就是輸入之後再輸出,分享乙個自己學習scrapy框架的小案例,方便快速的掌握使用scrapy的基本方法。本想從零開始寫乙個用scrapy爬取教程,但是官方已經有了樣例,一想已經有了,還是不寫了,盡量分享在網...
Python小爬蟲 抓取豆瓣電影Top250資料
寫leetcode太累了,偶爾練習一下python,寫個小爬蟲玩一玩 比較簡單,抓取豆瓣電影top250資料,並儲存到txt 上傳到資料庫中。通過分析可以發現,不同頁面之間是有start的值在變化,其他為固定部分。以物件導向的編碼方式編寫這個程式,養成好的編碼習慣。基本資訊在 init 函式中初始化...