我不知道wid是什麼編號還是什麼,也不是和其他關鍵字的wid規則,於是我就刪除了這個引數再請求一次,發現去掉也可以進入頁面
微指數還和360指數一樣是一次請求就直接將所有資料以json的形式返回過來
我們用工具會找到乙個裡面是整體趨勢,pc&移動端趨勢的所有資料
以下先採用單一採集
#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
import requests
import urllib
class xl():
def pc(self):
r=requests.get("")
return r.text
x=xl()
print x.pc()
結果:
csrf
很明顯,跨站請求偽造,這樣我們請求時就要把請求的頭資訊帶上
#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
import requests
import urllib
class xl():
def pc(self,name):
url_name=urllib.quote(name)
headers=
r=requests.get("",headers=headers)
return r.text
x=xl()
print x.pc("歡樂頌")
結果:
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,],"yd":[,,,,,,,,,,,,,,,,,,,,,,,,,,,,,]}],"len":1,"keyword":["\u6b22\u4e50\u9882"]}
json資訊全部獲得
zt是整體趨勢資料
yd是pc&移動趨勢資料
"keyword":["這裡就是關鍵字"]
我又試了幾個關鍵字,看了這個url,__rnd這個引數的值可以為空,應該是個時間戳
python爬蟲案例 Python爬蟲案例集合
在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。import urllib.request 向指定的url位址傳送請求,並返回伺服器響應的類檔案物件 ...
Python 爬蟲 微博找人頁面爬蟲(四)
通過分析頁面載入的過程,沒有發現有ajax非同步請求載入,但是selenium又不太穩定,有時會載入很久。那怎麼獲取內容呢?想了想,如果木有ajax非同步請求,那麼其實在第一次請求頁面的時候,頁面上的資訊就已經返回了,只是沒有顯示出來,所以,是通過js顯示response的內容?後面發現頁面有很多 ...
爬蟲初探 新浪微博搜尋爬蟲總覽
在這裡需要說明一下,一般來說,資料抓取工作主要有兩種方式 一是通過抓包工具 fiddle 進行抓包分析,獲取ajax請求的url,通過url抓取資料,這也是更為通用 推薦的方法 另外一種方法就是後面要使用的模擬瀏覽器行為的爬蟲。那麼,在源 中資訊不可見的情況下,通過什麼方法能夠提取js 中的html...