python爬蟲 案例四 新浪微指數

2021-07-12 01:54:59 字數 1164 閱讀 7299

我不知道wid是什麼編號還是什麼,也不是和其他關鍵字的wid規則,於是我就刪除了這個引數再請求一次,發現去掉也可以進入頁面

微指數還和360指數一樣是一次請求就直接將所有資料以json的形式返回過來

我們用工具會找到乙個裡面是整體趨勢,pc&移動端趨勢的所有資料

以下先採用單一採集

#coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

import requests

import urllib

class xl():

def pc(self):

r=requests.get("")

return r.text

x=xl()

print x.pc()

結果:

csrf

很明顯,跨站請求偽造,這樣我們請求時就要把請求的頭資訊帶上

#coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

import requests

import urllib

class xl():

def pc(self,name):

url_name=urllib.quote(name)

headers=

r=requests.get("",headers=headers)

return r.text

x=xl()

print x.pc("歡樂頌")

結果:

,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,],"yd":[,,,,,,,,,,,,,,,,,,,,,,,,,,,,,]}],"len":1,"keyword":["\u6b22\u4e50\u9882"]}

json資訊全部獲得

zt是整體趨勢資料

yd是pc&移動趨勢資料

"keyword":["這裡就是關鍵字"]

我又試了幾個關鍵字,看了這個url,__rnd這個引數的值可以為空,應該是個時間戳

python爬蟲案例 Python爬蟲案例集合

在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。import urllib.request 向指定的url位址傳送請求,並返回伺服器響應的類檔案物件 ...

Python 爬蟲 微博找人頁面爬蟲(四)

通過分析頁面載入的過程,沒有發現有ajax非同步請求載入,但是selenium又不太穩定,有時會載入很久。那怎麼獲取內容呢?想了想,如果木有ajax非同步請求,那麼其實在第一次請求頁面的時候,頁面上的資訊就已經返回了,只是沒有顯示出來,所以,是通過js顯示response的內容?後面發現頁面有很多 ...

爬蟲初探 新浪微博搜尋爬蟲總覽

在這裡需要說明一下,一般來說,資料抓取工作主要有兩種方式 一是通過抓包工具 fiddle 進行抓包分析,獲取ajax請求的url,通過url抓取資料,這也是更為通用 推薦的方法 另外一種方法就是後面要使用的模擬瀏覽器行為的爬蟲。那麼,在源 中資訊不可見的情況下,通過什麼方法能夠提取js 中的html...