爬蟲案例 爬取網易雲熱門評論

2021-10-04 19:34:57 字數 1171 閱讀 1765

import requests

import json

import re

defget_res

(url)

: proxy =

# 最好使用**,萬一網易把你ip乾掉了,,,,

# 請求頭最好多複製一些,尤其時 referer,這個判斷請求從哪來的。

headers=

# data =

# 這個url 是在我們發現熱評的檔案裡的 url ,雖然開啟這個**是空白的

name_id = url.split(

'=')[1

] target_url =

''.format

(name_id)

res = requests.post(target_url,headers = headers,data=data,proxies=proxy)

return res

defget_data

(res)

: comments_json = json.loads(res.text)

# 得到的是json 形式的資料

hot_comments = comments_json[

'hotcomments'

]with

open

('hotcomments.txt'

,'w'

,encoding=

'utf-8'

)as f:

for each in hot_comments:

f.write(each[

'user'][

'nickname']+

':\n\n'

) f.write(each[

'content']+

'\n'

) f.write(

'------------------\n'

)def

main()

: url =

input()

res = get_res(url)

get_data(res)

if __name__ ==

'__main__'

: main(

)

python爬取網易評論

爬取的是 最近華北空氣汙染嚴重 的新聞 1 首先獲取json格式的檔案 我用的是360瀏覽器 貌似用谷歌比較好,但我谷歌出了點問題 最新跟帖 所以要同時爬取兩種 3 處理字串 用 json.loads 解碼字串轉換為python形式時格式很重要,在這裡轉換成字典 形式。將開頭和結尾去掉,只剩下乙個大...

反爬蟲爬取網易雲歌單

一 主題式網路爬蟲設計方案 1.主題式網路爬蟲名稱 爬取網易雲 歌單 2.主題式網路爬蟲爬取的內容與資料特徵分析 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 實現思路 使用單執行緒爬取,初始化資訊,設定請求頭部資訊,獲取網頁資源,使用etree進行網頁解析,爬取多頁時重新整理offset...

爬取網易雲歌單

偶爾在微博上看到,要是歌單裡誰的歌超過30首,那肯定是真愛吧。我看了連忙開啟網易雲 我的歌單,結果1000多首歌。這讓我自己數得數到猴年馬月呀.於是萌生出了寫一段小爬蟲來統計的想法。剛開始想直接解析網頁元素,後發現很麻煩,很多資訊不能一次抓取到,於是找到網頁請求的介面,結果介面有加密引數,看了一下j...