import requests
import re
from bs4 import beautifulsoup
import csv
import pandas as pd
from itertools import islice
import numpy as np
def get_csv
(url)
: #請求的方式得到資料jason檔案
bvindex = url.
find
('bv'
) id = url[bvindex:
] url=
''+id+
'&jsonp=jsonp'
r=requests .
get cid=r.
json()
['data'][
0]['cid'
] urll=
''+str
(cid)
+'.xml'#利用cid獲取對應彈幕
rr=requests.
get(url=urll,headers=headers)
rr.encoding=
'uft-8'
soup=
beautifulsoup
(rr.text,
'lxml'
) danmu_info=soup.
find_all
('d'
) all_info=
all_text=
for i in danmu_info:
all_info.
(i['p'
]) #得到彈幕資訊
all_text.
(i) #得到彈幕內容
f =open
('danmu_info.csv'
,'w'
, encoding=
'utf-8'
) csv_writer = csv.
writer
(f) csv_writer.
writerow([
"時間"
,"彈幕模式"
,"字型大小大小"
,"顏色"
,"unix格式時間戳"
,"彈幕種類"
,"傳送者id"
,"rowid"
]) #彈幕資訊就是按這麼個順序排列的
for i in all_info:
i=str(i)
.split
(','
) #把彈幕資訊分隔好
csv_writer.
writerow
(i) f.
close()
f =open
('danmu_text.csv'
,'w'
, encoding=
'utf-8'
) csv_writer = csv.
writer
(f) csv_writer.
writerow([
"內容"])
for i in all_text:
csv_writer.
writerow
(i) f.
close()
if __name__==
'__main__'
:get_csv
('')
爬取B站彈幕
最近幾天學習爬蟲,便爬取了b站的彈幕,本篇博文記錄的是爬取彈幕的方法一,近期會更新方法二。下面是流程 點開這個包是這個形式的 這裡面就有明文的彈幕,但通過requests獲得的response是經過utf 8編碼加密過的,想要獲得彈幕內容還要解密。下面附 from bs4 import beauti...
python爬取B站彈幕學習筆記
然後開啟檢查,選擇net 這個位址就是存放彈幕的檔案 接下來我們之間用request模組去get文字,beautifulsoup去處理獲取文字,然後匯入到詞云 匯入擴充套件庫 import re 正規表示式庫 import collections 詞頻統計庫 import numpy as np n...
爬蟲專欄6 爬取B站彈幕
比如說這裡我隨便開乙個網頁 在xhr標籤裡面可以看到乙個小眼睛圖示的玩意兒,開啟那個url進去之後 就可以直接提取了 ps 1.針對匹配,乙個尖括號結束之後最好用.過渡到另乙個尖括號,不要什麼都不加,可能抓不出來 2.這是針對response.text和response.content.decode...