def get_comment(url):
""""""
i = 0
while true:
url = "" + str(i) + "&pagesize=10&isshadowsku=0&fold=1"
headers =
response = requests.get(url, headers=headers)
comment_list = re.compile(r'"content":"(.*?)"').findall(response.text)
for comment in set(comment_list):
print comment
if len(comment_list) == 0:
break
i += 1
for j in range(101):
url = " &page=" + str(j)
3.根據這個url就可以獲得商品列表的前28個資料,一共有60個,另外有四個廣告:
res = requests.get(url, headers=headers
# 使用正則提取出商品的id欄位
id_list =re.compile('j_ad_(\d+)').findall(res.content)
# print len(id_list)
# 定義乙個列表來存放所有的id
str_id =
for id in id_list:
# 詳細頁面的url
detail = ""+str(id)+".html"
# 新增id到列表
comment_url = ""+str(id)+"&score=0&sorttype=5&page=0&pagesize=10&isshadowsku=0&fold=1"
get_comment(comment_url)
# 拼接id
str_id = ",".join(str_id)
# 這是載入出來的url,其中後面的str_id是前面獲取所有的id的拼接在一起,用,隔開
url2= ""+str(j+1)+"&s=25&scrolling=y&log_id=1504059001.28625&tpl=3_l&show_items=" + str_id
# 這個是拼接請求的頭,分析得到這個referer欄位
headers_page = "&page="+str(j)+"&s=1"
headers_next =
# 獲取後面的資料
url2= ""+str(j+1)+"&s=25&scrolling=y&log_id=1504059001.28625&tpl=3_l&show_items=" + str_id
headers_page = "&page="+str(j)+"&s=1"
headers_next =
# 傳送請求
res1 = requests.get(url2, headers=headers_next)
# 使用正則得到id的列表
id_list2 = re.compile('j_ad_(\d+)').findall(res1.content)
for id2 in id_list2:
# 詳細頁面的url,
detail_url = ""+str(id2)+".html"
comment_url = ""+str(id2)+"&score=0&sorttype=5&page=0&pagesize=10&isshadowsku=0&fold=1"
get_comment(comment_url)
python爬取京東評論
這不是我的第乙個爬蟲,但大多數都是像這樣簡單粗暴的,因為一開始對於定義函式,然後再進行相應的操作,是比較困難的,這能直接寫for迴圈語句。然後,我們便開始進行相應的爬蟲第一步 匯入必要的包 import requests import json header這個的作用在於偽裝成瀏覽器進行操作,有些網...
python爬取京東評論 一
作為乙個爬蟲小白解決問題是十分蛋疼的 皿 就這幾行 我折磨了一下午,然後我發現,學習 最大的難題是學習資源獲取的途徑並不是 本身,只要學,任何人都能學會 開發者選項 3.知道了這個是相應的請求了,去headers弄url,去看看怎麼樣 複製url 4下面開始搞 import requests imp...
用Python爬取京東手機評論
好評 中評 差評 追評 可以看到這個url裡都有以下幾個引數 videocount 2638,videocountstr 2600 aftercount 4852,aftercountstr 4800 showcount 24200,showcountstr 2.4萬 productid 10000...