python微博內容提取

2021-09-18 03:58:12 字數 744 閱讀 3450

import requests

import re

import json

from bs4 import beautifulsoup

#微博要用cookies登入

#乙個知識點 有script裡的內容用正則取出再處理

headers = #cookies處理格式

url = ''

res = requests.get(url=url,headers=headers,cookies=cookies)

html = re.findall(r'',res.text) #將script標籤內容提取出

for i in html:

if re.search(r'wb_text',i) != none: #取出有文字的段落 已經有觀察出 含有微博文本的特徵

i = i.strip('(').strip(')') #字串去掉括號

data_jason = json.loads(i) #將字串載入成字典檔

soup = beautifulsoup(data_jason['html'],'lxml') #字典檔當中只提取html對應的**

tags = soup.find_all('div',attrs=) #提取文字的標籤

for tag in tags:

print(tag.text.replace(' ','')) #去掉空格 第乙個分號內有乙個空格

微博爬蟲python 微博爬蟲 python

本文爬取的是m站的微博內容,基於python 2.7 一 微博內容爬取 1.要爬取的微博首頁 2.手機微博是看不到翻頁,是一直往下載入的,但是其json格式的資料仍然以翻頁的形式呈現。3.開啟開發者工具,向下翻頁面,可以在network下的xhr的響應檔案中,找到json檔案的 如 通過分析發現每個...

python提取內容 使用Python提取小說內容

具體實現功能如下 輸入 目錄頁的url之後,指令碼會自動分析目錄頁,提取 的章節名和章節鏈結位址。然後再從章節鏈結位址逐個提取章節內容。現階段只是將 從第一章開始,每次提取一章內容,回車之後提取下一章內容。其他 的結果可能有不同,需要做一定修改。在逐浪測試過正常。coding utf8 usr bi...

爬取微博指定使用者的微博內容

使用python3爬取微博指定使用者的內容 import urllib.request import json 定義要爬取的微博大v的微博id id 5866810652 設定 ip proxy addr 192.168.1.101 定義頁面開啟函式 獲取微博主頁的containerid,爬取微博內...