爬取B站彈幕

2021-09-09 08:54:04 字數 775 閱讀 7938

最近幾天學習爬蟲,便爬取了b站的彈幕,本篇博文記錄的是爬取彈幕的方法一,近期會更新方法二。

下面是流程:

點開這個包是這個形式的**

這裡面就有明文的彈幕,但通過requests獲得的response是經過utf-8編碼加密過的,想要獲得彈幕內容還要解密。

下面附**:

from bs4 import beautifulsoup

import requests

import urllib

import re

headers =

response = requests.get("", headers=headers)

#print(response.text)

html_doc = response.content.decode('utf-8')

#soup = beautifulsoup(html_doc,'lxml')

format = re.compile("(.*?)")

danmu = format.findall(html_doc)

print(danmu)

for i in danmu:

print(i)

爬蟲專欄6 爬取B站彈幕

比如說這裡我隨便開乙個網頁 在xhr標籤裡面可以看到乙個小眼睛圖示的玩意兒,開啟那個url進去之後 就可以直接提取了 ps 1.針對匹配,乙個尖括號結束之後最好用.過渡到另乙個尖括號,不要什麼都不加,可能抓不出來 2.這是針對response.text和response.content.decode...

python爬取B站彈幕學習筆記

然後開啟檢查,選擇net 這個位址就是存放彈幕的檔案 接下來我們之間用request模組去get文字,beautifulsoup去處理獲取文字,然後匯入到詞云 匯入擴充套件庫 import re 正規表示式庫 import collections 詞頻統計庫 import numpy as np n...

手把手教你爬取B站彈幕!

基本的思路很簡單,還是老步驟 1 構造爬取的url 2 解析返回的資料 3 使用json或xpath或正規表示式提取資料 4 儲存資料 剛開始還是從網頁版中尋找url位址,結果請求很多,找了半天也沒有找到 於是我們可以訪問一下手機版的頁面,而根據常識,彈幕這種東西一般是通過ajax來請求的,所以我們...