目錄
爬取乙個**,將**的資料儲存到csv中。
匯入包:
import requests
import parsel
import csv
設定csv檔案格式:
設計未來資料的儲存形式。
#開啟檔案
f = open('whxixi.csv', mode='a',encoding='utf-8',newline='')
#檔案列名
csv_writer= csv.dictwriter(f,fieldnwww.cppcns.comames=['電影名字',
'彈幕總數',
'新增評論',
'電影鏈結',
'電影日期',
'電影型別',
'電影演員',
'電影介紹'])
#輸入檔案列名
csv_writer.writeheader()
獲取資料:
獲取網頁的html,得到原始的資料( 得到的資料儲存在response中)。
#選擇愛奇藝熱播榜的**
url=''
headers =
#獲取**內容,賦值 到response
response = requests.get(url=url, headers=headers)
加工資料:
對得到的網頁原始資料進行加工處理,即提取出有用的資料。備註,根據爬取的網頁進行調整css()裡面的內容,不同**頁面的結構不同,根據需要進行調整。(f12開發者模式)
#把response.text轉換為selector物件 可以使用re, css,x-path選擇器
webtext = parsel.selector(response.text)
#第一步篩選資料,形成列表,可以使下次查詢形成迴圈
list=webtext.css('.rvi__list a')
#再上一步的基礎上,使用迴圈,進行提取資料
for li in list:
title= li.css(' .rvi__con .rvi__tit1::text').get()
bulletcomments =li.css('.rvi__con .rvi__tag__box span:nth-child(1)::text').get() #彈幕總數
newcomments =li.css(' .rvi__con .rvi__tag__box span:nth-child(2)::text').get() #新增評論數
csv_writer.writerow(dic) #將資料輸入到csv檔案中
import requests
import parsel
import csv
f = open('whxixi.csv', mode='a',encoding='utf-8',newline='')
csv_writer= csv.dictwriter(f,fieldnames=['電影名字',
'彈幕總數',
'新增評論',
'電影鏈結',
'電影日期',
'電影型別',
'電影演員',
'電影介紹'])
csv_writer.writeheader()
#選擇愛奇藝熱播榜的**
url=''
headers =
#獲取**內容,賦值 到response
response = reques程式設計客棧ts.get(url=url, headers=headers)
#把response.text轉換為selector物件 可以使用re, css,x-path選擇器
webtext = parsel.selector(response.tewww.cppcns.comxt)
#第一步篩選資料,形成列表,可以使下次查詢形成迴圈
list=webtext.css('.rvi__list a')
#再上一步的基礎上,使用迴圈,進行提取資料
for li in list:
title= li.css(' .rvi__con .rvi__tit1::text').get()
bulletcomments =li.css('.rvi__con .rvi__tag__box span:nth-child(1)::text').get() #彈幕總數
newcomments =li.css(' .rvi__con .rvi__tag__box span:nth-child(2)::text').get() #新增評論數
csv_writer.writerow(dic) #將資料輸入到csv檔案中
python爬取網頁資料
import refrom urllib.request import urlopen 爬取網頁資料資訊 def getpage url response urlopen url return response.read decode utf 8 defparsepage s ret re.find...
Python 簡單爬取網頁資料
爬取我的csdn網頁 import requests 時出現紅線,這時候,我們將游標對準requests,按快捷鍵 alt enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了...
java網頁資料爬取
在瀏覽器書籤中有許多經典的東西,有時候什麼忘記了需要去查詢的,也非常方便,但是痛苦的事情是某一天開啟書籤,居然那個頁面不知道飛哪去了,打不開,作為乙個程式設計師,當然不能容忍這種事情發生,那就把它們都爬下來。首先我們的書籤可能有幾種分類,為了處理方便,可以手動刪除我們不需要的,也可以程式處理一下 以...