該專案源自科賽網的訓練專案。
背景專案簡介
此資料集包含來自movielens 電影推薦服務的5星評分和文字標記資料和來自imdb1950-2023年imdb top10000排行榜資料。
movielens資料集包含27278部電影的20000263份評分和465564次標籤應用。 這些資料是由2023年1月9日至2023年3月31日期間的138493個使用者建立。
練習內容
mdbtop10000資料集包含1950-2023年imdb top10000電影排行榜資料集。包含電影名稱,上映時間,評分,投票數,時長和流派資訊。 以下為可選角度:
什麼樣題材的電影評分會相對較高(較低);
電影時長對評分是否有影響;
不同年代什麼型別電影較受歡迎;
其他自選角度。
檔名genome_scores.csv
genome_tags.csv
link.csv
movie.csv
rating.csv
tag.csv
imdb10000.csv
內容包含tag的相關性資料
包含tag資訊
電影在imdb與***b中的id
電影資訊
使用者對電影的評分資訊
使用者對電影的tag資料
top10000電影名稱,上映時間,評分,投票數,時長和流派資訊
爬蟲目標**:
爬取目標:top10000電影imdbid,名稱,上映時間,評分,投票數,時長和流派資訊
Movielens IMDB電影資料分析 三
電影時長不是數值,而是字串 電影流派不是原子資料,很難提取特定的流派做分析。上映年份格式修正 投票數修正為整型 本來以為自己爬取的資料存在兩個瑕疵,但是在實際應用中發現,還有乙個巨大的瑕疵 desecribe的時候,發現votes一列不能被describe。進行info檢視資訊的時候,發現votes...
爬取貓眼電影排行100電影
import json import requests from requests.exceptions import requestexception import re import time 獲取單頁的內容 def get one page url try response requests....
小程式 電影商城 娛樂 電影列表
一 小程式 電影 娛樂 電影列表首頁 小程式版本主頁 二 小程式 電影 娛樂 電影列表 豆瓣網 提供開放介面 介面 熱門電影列表 apikey 0df993c66c0c636e29ecbb5344252a4a 豆瓣開發者鑰匙 start 0 count 10 start 從第幾條記錄開始 count...