一、爬蟲物件
豆瓣電影裡面喜劇片的排行榜:
二、**如下:
設定了多個user-agent,模擬成真實的瀏覽器去提取內容:
抓取電影的資訊:
#獲取索引頁三、把爬的電影資料儲存起來def get_index_page(url):
try:
headers =
response = requests.get(url,headers=headers)
response.encoding = 'utf-8'
if response.status_code == 200:
return response.text
return none
except requestexception:
print('獲取索引頁錯誤')
time.sleep(random.random()*3)
return get_index_page(url)
#解析索引頁
def parse_index_page(url):
data_list = get_index_page(url)
dataurl = json.loads(data_list)
detail_list =
if dataurl:
for item in dataurl:
return detail_list
#獲取詳情頁
def get_movie_page(url):
detailurl = parse_index_page(url)
movie =
for i in range(len(detailurl)):
html = detailurl[i]
headers =
time.sleep(random.random()*3)
res = requests.get(url=html,headers=headers)
res.encoding = 'utf-8'
soup=beautifulsoup(res.text,"html.parser")
movie_dict = {}
movie_dict['name'] = soup.find("span", ).text
movie_dict['evaluate'] = soup.find("span", ).text.strip( '' )
movie_dict['score'] = soup.find("strong", ).text.strip()
movie_dict['director'] = soup.find("a", ).text
movie_dict['region'] = soup.find("span", text="製片國家/地區:").nextsibling.strip()
movie_dict['year'] = soup.find("span", ).text.lstrip("(").rstrip(")")
return movie
部分截圖(一共抓取了600部電影):
四、資料分析
通過此柱形圖可以發現美國地區居於首位,畢竟美國發展得比較快,電影事業崛起。
通過對前三個國家的喜劇片分析,近年來美國拍的喜劇片逐步上公升,法國和日本就平平而過。
推薦:這幾部電影評分比較高,看的人也比較多,喜歡看喜劇電影的不妨找這幾部看看。
爬蟲綜合大作業
作業要求來自 滿天星辰的夜晚,他們相遇了 夏天的時候,她慢慢的接近他,關心他,為他付出一切 秋天的時候,兩個人終於如願的在一起,分享一切快樂的時光但終究是快樂時光短暫,因為杰倫必須出國深造,兩人面臨了要分隔兩地的狀況,分隔兩地的愛情總是難以維繫長久,在冬天他們選擇分手。從前從前 那帶著痛徹心扉的氣味...
爬蟲綜合大作業
通過瀏覽器的檢查元素 要想爬取這些資料,就必須在使用requests庫時設定好請求的頭部 headers 特別是cookie。接下來開始分析 首先是找到網易雲 歌手網頁 在左側我們可以看到歌手的分類,每個分類都對應乙個url的id引數,同一類歌手又通過歌手名字的首字母進行排序,對應url中的init...
爬蟲大作業
1 選乙個自己感興趣的主題。2 用python 編寫爬蟲程式,從網路上爬取相關主題的資料。3 對爬了的資料進行文字分析,生成詞云。4 對文字分析結果進行解釋說明。5 寫一篇完整的部落格,描述上述實現過程 遇到的問題及解決辦法 資料分析思想及結論。6 最後提交爬取的全部資料 爬蟲及資料分析源 impo...