爬取B站彈幕

最近幾天學習爬蟲，便爬取了b站的彈幕，本篇博文記錄的是爬取彈幕的方法一，近期會更新方法二。

下面是流程：

點開這個包是這個形式的**

這裡面就有明文的彈幕，但通過requests獲得的response是經過utf-8編碼加密過的，想要獲得彈幕內容還要解密。

下面附**：

from bs4 import beautifulsoup
import requests
import urllib
import re
headers = 
response = requests.get("", headers=headers)
#print(response.text)
html_doc = response.content.decode('utf-8')
#soup = beautifulsoup(html_doc,'lxml')
format = re.compile("(.*?)")
danmu = format.findall(html_doc)
print(danmu)
for i in danmu:
print(i)

爬蟲專欄6 爬取B站彈幕

比如說這裡我隨便開乙個網頁在xhr標籤裡面可以看到乙個小眼睛圖示的玩意兒，開啟那個url進去之後就可以直接提取了 ps 1.針對匹配，乙個尖括號結束之後最好用.過渡到另乙個尖括號，不要什麼都不加，可能抓不出來 2.這是針對response.text和response.content.decode...

python爬取B站彈幕學習筆記

然後開啟檢查，選擇net 這個位址就是存放彈幕的檔案接下來我們之間用request模組去get文字，beautifulsoup去處理獲取文字，然後匯入到詞云匯入擴充套件庫 import re 正規表示式庫 import collections 詞頻統計庫 import numpy as np n...

手把手教你爬取B站彈幕！

基本的思路很簡單，還是老步驟 1 構造爬取的url 2 解析返回的資料 3 使用json或xpath或正規表示式提取資料 4 儲存資料剛開始還是從網頁版中尋找url位址，結果請求很多，找了半天也沒有找到於是我們可以訪問一下手機版的頁面，而根據常識，彈幕這種東西一般是通過ajax來請求的，所以我們...

爬取B站彈幕

爬蟲專欄6 爬取B站彈幕

python爬取B站彈幕學習筆記

手把手教你爬取B站彈幕！

相關推薦