python3.7
python3 爬蟲 豆瓣 電影名稱
#!/usr/bin/python
# coding: utf-8
import requests
from bs4 import beautifulsoup #從bs4這個庫中匯入beautifulsoup
headers =
link = ''
r = requests.get(link, headers=headers, timeout=20)
print(str(1), "頁響應狀態碼:", r.status_code)
# print(r.text)
print (type(r.status_code))
if r.status_code is not 200:
exit(0)
soup = beautifulsoup(r.text, "lxml")
div_list = soup.find_all('div', class_='hd')
print ('##################\n')
print (div_list[0])
each = div_list[0]
print ('+++++++++++++++\n')
movie = each.a.span
print (movie)
movie_text = movie.text.strip()
print (movie_text)
print ('##################\n')
print (div_list[1])
each = div_list[1]
print ('+++++++++++++++\n')
movie = each.a.span
print (movie)
movie_text = movie.text.strip()
print (movie_text)
log:
c:\programdata\anaconda3\python.exe e:/python/work/ana_test/test.py
1 頁響應狀態碼: 200
##################
肖申克的救贖
/ the shawshank redemption
/ 月黑高飛(港) / 刺激1995(臺)
+++++++++++++++
肖申克的救贖
肖申克的救贖
##################
霸王別姬
/ 再見,我的妾 / farewell my concubine
+++++++++++++++
霸王別姬
霸王別姬
process finished with exit code 0
將 print(r.text)列印出來的 內容:
用 notepad ++,儲存到乙個 123.html資料夾中。
需要設定notepad++ 的中文編碼格式為 utf8 .
用 notepad ++ 開啟的時候 ,顯示的 是 能看懂的中文,而不是亂碼 才行。
儲存之後,雙擊 123.html 會在ie瀏覽器中 顯示如下效果。
提取電影英文名,港台名,導演,主演,上映年份,電影分類和評分
**如下:
#!/usr/bin/python
# coding: utf-8
import requests
from bs4 import beautifulsoup #從bs4這個庫中匯入beautifulsoup
headers =
link = ''
r = requests.get(link, headers=headers, timeout=20)
print(str(1), "頁響應狀態碼:", r.status_code)
# print(r.text)
print (type(r.status_code))
if r.status_code is not 200:
exit(0)
soup = beautifulsoup(r.text, "lxml")
div_info_list = soup.find_all('div',class_ = 'info')
print (div_info_list[0])
each = div_info_list[0]
title = each.find('div', class_='hd').a.span.text.strip()
print (title)
info = each.find('div', class_='bd').p.text.strip()
print ('-------------- 1 ---------------- \n')
print(info)
info = info.replace("\n", " ").replace("\xa0", " ")
print ('-------------- 2 ---------------- \n')
print(info)
info = ' '.join(info.split())
print ('-------------- 3 ---------------- \n')
print(info)
rating = each.find('span', class_='rating_num').text.strip()
num_rating = each.find('div', class_='star').contents[7].text.strip()
try:
quote = each.find('span', class_='inq').text.strip()
except:
quote = ""
print ('-------------- 4 ---------------- \n')
print ('title =', title)
print ('info = ', info)
print ('rating = ', rating)
print ('num_rating = ', num_rating)
print ('quote = ', quote)
執行結果:
c:\programdata\anaconda3\python.exe e:/python/work/ana_test/test.py
1 頁響應狀態碼: 200
肖申克的救贖
/ the shawshank redemption
/ 月黑高飛(港) / 刺激1995(臺)
導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /...
1994 / 美國 / 犯罪 劇情
9.71559199人評價
希望讓人自由。
肖申克的救贖
-------------- 1 ----------------
導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /...
1994 / 美國 / 犯罪 劇情
-------------- 2 ----------------
導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /... 1994 / 美國 / 犯罪 劇情
-------------- 3 ----------------
導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /... 1994 / 美國 / 犯罪 劇情
-------------- 4 ----------------
title = 肖申克的救贖
info = 導演: 弗蘭克·德拉邦特 frank darabont 主演: 蒂姆·羅蘋斯 tim robbins /... 1994 / 美國 / 犯罪 劇情
rating = 9.7
num_rating = 1559199人評價
quote = 希望讓人自由。
process finished with exit code 0
python3爬取豆瓣電影Top 250
爬取豆瓣電影top 250 排名 名字 作者 評語 1 匯入包 import requests from bs4 import beautifulsoup import re 2 傳送請求 headers res requests.get url,headers headers print res....
python豆瓣影評 python 豆瓣電影爬蟲
因為 的緣故,在家甚是無聊,想著可能會做乙個和資料分析相關的畢業設計,不如就提前準備一下資料。眼光一掃,就是你了,豆瓣!說起來很有意思,我最開始寫爬蟲就是從豆瓣開始的,現在又回來了。豆瓣,這世間所有的相逢都是久別重逢。好了,不皮了,開始正題。寫爬蟲之前,首先要明確乙個問題你需要什麼資料。先有目標,再...
python爬蟲 豆瓣電影
最近學習python 順便寫下爬蟲練手 爬的是豆瓣電影排行榜 python版本2.7.6 安裝 beautiful soup sudo apt get install python bs4 安裝 requests sudo apt get install python requests下面是py a...