豆瓣高分電影資訊分析(資料分析)
1、資料抓取
資料集的獲取是我們進行資料分析的第一步。現在獲取資料的主要途徑一般為:現成資料;自己寫爬蟲去爬取資料;使用現有的爬蟲工具爬取所需內容,儲存到資料庫,或以檔案的形式儲存到本地。
用python軟體爬取的豆瓣高分電影資訊,用以獲取其中的資料。
3.檢查網頁:
右擊選中檢查或按f12,在該視窗中找到存放電影資訊的**
看到:class=『title』的div標籤文字中存放著電影名稱
class=『rating』的div標籤中存放著星級,評分和評價人數
class=『abstract』的div標籤中存放著導演,主演,型別,製片國家/地區和年份的資訊
1.2獲取資訊
通過網頁分析可知,我們所需要的資訊都在html頁面裡,所以我們只需要獲取html頁面相應class類div中的資訊就可以了
1.獲得網頁所有資料:
r=requests.get(link,headers=headers,timeout=10)
soup=beautifulsoup(r.text,
"lxml"
)''
豆瓣讀書 豆瓣電影
1.獲取豆瓣讀書頁資訊,為 如下 coding utf 8 import requests from lxml import etree 1.獲取豆瓣讀書網頁內容 headers url response requests.get url,headers headers text response....
豆瓣電影排行榜獲取
倉庫 開啟豆瓣的電影排行榜,隨機找乙個分類,隨後對頁面進行分析,經過查到,找到了資訊請求的鏈結,返回的是乙個json資料,根據請求鏈結,我們發現url所帶的引數有四個type為分類 start獲得元素起始點,相當於頁數 limit限制,相當於獲取元素終點,interval id action 意義不...
豆瓣電影資料抓取案例
1 位址 豆瓣電影 排行榜 劇情 2 目標 電影名稱 電影評分1 request url 基準url位址 https 2 query string 查詢引數 抓取的查詢引數如下 type 13 電影型別 interval id 100 90action start 0 每次載入電影的起始索引值 0 ...