豆瓣就比較符合這個「明人不說暗話」的原則。所以我們扒豆瓣,不多說,直接上**
from scrapy importimport
reheader =
movie_url = "
"m_id = re.search("
[0-9]+
", movie_url).group()
#獲取soup物件
utf-8")
content = soup.find(id="
content")
#抓取電影名字和上映年份
m_name = content.find("
h1").find("
span
").string
m_year = content.find(class_="
year
").string
#抓取導演
info = content.find(id="
info")
m_directer = info.find(attrs=).string
#上映日期
m_date = info.find(attrs=).string#型別
types = info.find_all(attrs=, limit=2)
m_types =
for type_ in
types:
#抓取主演,只取前面五個
actors = info.find(class_="
actor
").find_all(attrs=, limit=5)
m_actors =
for actor in
actors:#片長
m_time = info.find(attrs=).string
#m_adaptor = info.select()
print("
id", m_id, "
名稱", m_name, "
年份 ", m_year, "
導演 ", m_directer, "主演"
, m_actors)
print("
上映日期
", m_date, "
型別", m_types, "
片長", m_time)
輸出:
id 26985127 名稱 一出好戲 年份 (2018) 導演 黃渤 主演 ['黃渤', '
**', '
王寶強', '
張藝興', '
于和偉'
]上映日期 2018-08-10(中國大陸) 型別 ['
劇情', '
喜劇'] 片長 134分鐘
簡單粗暴
Python 從0開始寫爬蟲 小試身手
先寫個demo獲取資料,我不會做太多介紹,基本上都會寫在注釋裡。url為爬取的鏈結,headers主要是假裝我們不是爬蟲,現在我們就假裝我們是個chrome瀏覽器 response urllib.request.urlopen request 請求資料 data response.read 讀取返回...
Python從0開始 安裝
進入官網 選擇download downloads 直接選擇最新版本安裝。是exe檔案,直接下一步下一步,要勾選path.我為了方便在台式電腦和筆記本都安裝了 神奇的事情發生了,正常應該顯示 但是我在台式電腦上輸入測試正常,筆記本提示的是如下 python is not recognized as ...
從0開始Python 變數
變數是程式中乙個臨時存放資料的場所。在執行程式的時候變數是可以改變的,並且改變次數是不確定的。需要注意的是變數必須先定義才能使用。我們可以先定義乙個名字為a的變數 a 10 現在我們就定義了乙個名字為a的變數,這個變數所對應的資料為10。現在我們來列印這個變數,並利用type函式來獲取這個變數的資料...