爬去知乎分析

目前還在進行階段

我的目的是爬去知乎熱榜五十的回答，分為只爬去靜態返回的頁面和爬去非同步返回的資料。

首先開始查詢知乎前五十需要登入，但是我並不想處理登入。分析一波：先用瀏覽器登入一下進去，記住密碼，之後再進入頁面知乎就可以，這是為什麼？猜想可能是將密碼儲存在cookie裡面的，於是f12在cookie裡面看到如下資訊，試一下將cookie的東西塞到請求裡面，訪問成功！！！

之後進入問題鏈結後發現，又有錯誤，幾經周折發現不用cookie也行了，估計是知乎後台現在不檢測是否登入了。之後就是爬去了。下面分析非同步返回的東西，幾經周折找到如下鏈結

發現有這幾個引數，include,limit,offset,platform,sort_by；可見，後面limit是返回多少個，offset是第幾頁，sort_by是排序,platform是平台這些都沒影響，但是include是關鍵了，刪除include發現返回的資料沒有答案，只有回答者資訊問題，但是include我應該按照怎麼樣的規則新增？還有這段神秘**有什麼意義呢？分析了一下，就是這裡面返回的類容包含哪些東西，所以複製下來就好，也可以找到只返回你需要的資訊也行，經過試驗2ccontent是內容具體還有我試了以後加。

爬去知乎分析

步步分析爬取知乎使用者頭像

爬知乎了解BeautifulSoup用法

python動態爬取知乎 python爬取微博動態

爬去知乎分析

步步分析爬取知乎使用者頭像

爬知乎了解BeautifulSoup用法

python動態爬取知乎 python爬取微博動態

相關推薦