京東爬取評論簡單分析

2021-08-08 18:47:30 字數 1851 閱讀 3200

def get_comment(url):

""""""

i = 0

while true:

url = "" + str(i) + "&pagesize=10&isshadowsku=0&fold=1"

headers =

response = requests.get(url, headers=headers)

comment_list = re.compile(r'"content":"(.*?)"').findall(response.text)

for comment in set(comment_list):

print comment

if len(comment_list) == 0:

break

i += 1

for j in range(101):

url = " &page=" + str(j)

3.根據這個url就可以獲得商品列表的前28個資料,一共有60個,另外有四個廣告:

res = requests.get(url, headers=headers

# 使用正則提取出商品的id欄位

id_list =re.compile('j_ad_(\d+)').findall(res.content)

# print len(id_list)

# 定義乙個列表來存放所有的id

str_id =

for id in id_list:

# 詳細頁面的url

detail = ""+str(id)+".html"

# 新增id到列表

comment_url = ""+str(id)+"&score=0&sorttype=5&page=0&pagesize=10&isshadowsku=0&fold=1"

get_comment(comment_url)

# 拼接id

str_id = ",".join(str_id)

# 這是載入出來的url,其中後面的str_id是前面獲取所有的id的拼接在一起,用,隔開

url2= ""+str(j+1)+"&s=25&scrolling=y&log_id=1504059001.28625&tpl=3_l&show_items=" + str_id

# 這個是拼接請求的頭,分析得到這個referer欄位

headers_page = "&page="+str(j)+"&s=1"

headers_next =

# 獲取後面的資料

url2= ""+str(j+1)+"&s=25&scrolling=y&log_id=1504059001.28625&tpl=3_l&show_items=" + str_id

headers_page = "&page="+str(j)+"&s=1"

headers_next =

# 傳送請求

res1 = requests.get(url2, headers=headers_next)

# 使用正則得到id的列表

id_list2 = re.compile('j_ad_(\d+)').findall(res1.content)

for id2 in id_list2:

# 詳細頁面的url,

detail_url = ""+str(id2)+".html"

comment_url = ""+str(id2)+"&score=0&sorttype=5&page=0&pagesize=10&isshadowsku=0&fold=1"

get_comment(comment_url)

python爬取京東評論

這不是我的第乙個爬蟲,但大多數都是像這樣簡單粗暴的,因為一開始對於定義函式,然後再進行相應的操作,是比較困難的,這能直接寫for迴圈語句。然後,我們便開始進行相應的爬蟲第一步 匯入必要的包 import requests import json header這個的作用在於偽裝成瀏覽器進行操作,有些網...

python爬取京東評論 一

作為乙個爬蟲小白解決問題是十分蛋疼的 皿 就這幾行 我折磨了一下午,然後我發現,學習 最大的難題是學習資源獲取的途徑並不是 本身,只要學,任何人都能學會 開發者選項 3.知道了這個是相應的請求了,去headers弄url,去看看怎麼樣 複製url 4下面開始搞 import requests imp...

用Python爬取京東手機評論

好評 中評 差評 追評 可以看到這個url裡都有以下幾個引數 videocount 2638,videocountstr 2600 aftercount 4852,aftercountstr 4800 showcount 24200,showcountstr 2.4萬 productid 10000...