爬蟲抓取某餓了app商鋪的評論資料

2021-10-09 02:23:13 字數 2316 閱讀 7004

1.目標

2.抓包尋找介面

可能某些軟體使用了justtrustme 還是不行,可以再試下 sslunpinning 這個xposed模組。

sslunpinning:

通過 xposed 框架進行 sslunning,在 ssl 類中建立多個掛鉤,以繞過特定應用的證書驗證,然後您可以截獲所有流量。

3.開啟軟體,進行抓包分析

介面1,返回的是新資料

全部&offset={}&limit=20

# 引數的含義

eid 商鋪的標識

offset翻頁的引數

limit 每頁的數量

# 引數的含義

offset 翻頁引數

from_time 翻頁攜帶的引數 上乙個頁面返回的值

返回的資料

原始碼:

# 舊的評分

defget_old_page

(page_size, from_time, headers1)

: time.sleep(2)

print

("++++++++++開始老資料第{}頁"

.format

(page_size)

) old_url =

"".format

(page_size*

20, from_time)

resp2 = requests.get(old_url, headers=headers1)

result2 = resp2.json(

)# print(resp2.text)

for item in result2[

'ratings']:

text = item.get(

'rating_text'

) pub_time = item.get(

'rated_at'

)print

(pub_time, text)

# return result2['from_time']

if result2[

"from_time"]:

# 翻頁處理

get_old_page(page_size=page_size+

1, from_time=result2[

"from_time"

], headers1=headers1)

defrun_spider

(eid)

:# e3341432371647511612

""" :param eid: 店鋪id

:return:

"""headers1 =".

format

(eid),}

start_page =

0while

true

: time.sleep(2)

print

("----------新資料第{}頁-----"

.format

(start_page)

) base_url =

"".format

(eid, start_page*20)

resp = requests.get(base_url, headers=headers1)

# 解析資料

result = resp.json()if

not result:

break

start_page +=

1for item in result:

text = item[

'rating_text'

] pub_time = item.get(

'rated_at'

)print

(pub_time, text)

# 老資料

get_old_page(0,

'', headers1)

if __name__ ==

'__main__'

:# 店鋪id是動態的每天會換一次

eid =

"e537594264834876451"

run_spider(eid)

爬取餓了麼商鋪資訊

當我們訪問時,看看我們得到了什麼 1.png 我們發現所有的城市名稱和他的經緯度,還有乙個風流的男子 然後隨機輸入一些東西看看,進入某個地區看一看 在新的介面裡我們看到了這樣一條url 其中wwwmd9jmc43是用geohash演算法通過經緯度計算出來的值,latitude 37.53579和lo...

Python爬蟲 app資料抓取 1

一 1.安卓端模擬器環境搭建 2.抓包利器使用 3.自動化控制工具使用 二 1.資料分析 2.使用者畫像 3.統計系統 4.商業競爭 三 1.簡單 2.困難 a.可能需要適當的反編譯,分析出加密演算法並抓取到資訊 b.可能加固,需要脫殼,然後反編譯,分析出加密演算法並抓取到資訊 c.需要破解通過各式...

爬蟲app相關庫的抓取

charles是乙個網路抓包工具,相比fiddler,其功能更為強大,而且跨平台支援得更好,所以這裡選用它來作為主要的移動端抓包工具。mitmproxy是乙個支援http和https的抓包程式,類似fiddler charles的功能,只不過它通過控制台的形式操作。此外,mitmproxy還有兩個關...