小白的爬蟲微博版

本貼不太涉及較多技術知識，可能僅能對剛入門爬蟲的小白且有迫切爬蟲任務需求的，有一定的幫助，（本人也只是小白一名，如果有技術大佬願意指點，感激不盡），

[附帶原始碼] [

對於微博中」北京12345「賬號進行爬蟲，主要是尋找@北京12345平台的使用者都出現了什麼問題

python 3.7+anaconda

os x

本地版：

首先對於北京12345平台的爬取，小白其實對於post表單提交（模擬登入）不能很好進行處理，我看了很多github的專案，因為微博還涉及驗證碼以及ip限制，所以需要處理的太複雜，不適合本小白。那麼我們就簡單一下：

其實不用登入，我們也能看到一定量關於搜尋內容的結果

只是內容並不多，但是還是勉強能用。秉承著寧願多動一下手，也要完成任務的原則。我們先可以爬取該頁內容這裡會使用到urllib庫,beautifulsoup庫（假定大家還是有些些了解爬蟲的，我就不介紹了）

爬取內容後，我們會發現，所得到的html格式文字簡直就是天殺的！這讓本小白怎麼分析？

那麼我們就去找**，最後在雲棲社群，找到了一位作者的**，其大概思路，是對於html轉成string模式，然後逐一進行處理。最後只保留鑲嵌在（沒學前端，可能用詞不當）裡面的文字內容

好了，處理好乙個頁面的**後，我們得到了一點點內容，還是秉承最簡單原則，我這裡只用txt儲存文字資訊。

然後對於文字資訊稍微進行優化，可以得到下面更加易分析的內容：

那麼我們這只能爬取乙個頁面，由於微博未登陸就會重定向的限制，我們不能方便的用迴圈，直接爬取n多頁內容。那麼我們就換個思路吧

然後你就能搓手手等待，第一次獲得較少量所需內容了

小白的爬蟲 微博版