import requests
import json
import re
defget_res
(url)
: proxy =
# 最好使用**,萬一網易把你ip乾掉了,,,,
# 請求頭最好多複製一些,尤其時 referer,這個判斷請求從哪來的。
headers=
# data =
# 這個url 是在我們發現熱評的檔案裡的 url ,雖然開啟這個**是空白的
name_id = url.split(
'=')[1
] target_url =
''.format
(name_id)
res = requests.post(target_url,headers = headers,data=data,proxies=proxy)
return res
defget_data
(res)
: comments_json = json.loads(res.text)
# 得到的是json 形式的資料
hot_comments = comments_json[
'hotcomments'
]with
open
('hotcomments.txt'
,'w'
,encoding=
'utf-8'
)as f:
for each in hot_comments:
f.write(each[
'user'][
'nickname']+
':\n\n'
) f.write(each[
'content']+
'\n'
) f.write(
'------------------\n'
)def
main()
: url =
input()
res = get_res(url)
get_data(res)
if __name__ ==
'__main__'
: main(
)
python爬取網易評論
爬取的是 最近華北空氣汙染嚴重 的新聞 1 首先獲取json格式的檔案 我用的是360瀏覽器 貌似用谷歌比較好,但我谷歌出了點問題 最新跟帖 所以要同時爬取兩種 3 處理字串 用 json.loads 解碼字串轉換為python形式時格式很重要,在這裡轉換成字典 形式。將開頭和結尾去掉,只剩下乙個大...
反爬蟲爬取網易雲歌單
一 主題式網路爬蟲設計方案 1.主題式網路爬蟲名稱 爬取網易雲 歌單 2.主題式網路爬蟲爬取的內容與資料特徵分析 3.主題式網路爬蟲設計方案概述 包括實現思路與技術難點 實現思路 使用單執行緒爬取,初始化資訊,設定請求頭部資訊,獲取網頁資源,使用etree進行網頁解析,爬取多頁時重新整理offset...
爬取網易雲歌單
偶爾在微博上看到,要是歌單裡誰的歌超過30首,那肯定是真愛吧。我看了連忙開啟網易雲 我的歌單,結果1000多首歌。這讓我自己數得數到猴年馬月呀.於是萌生出了寫一段小爬蟲來統計的想法。剛開始想直接解析網頁元素,後發現很麻煩,很多資訊不能一次抓取到,於是找到網頁請求的介面,結果介面有加密引數,看了一下j...