爬蟲抓取微博的速度可以達到1300萬/天以上,具體要視網路情況,我使用的是校園網(廣工大學城校區),普通的家庭網路可能才一半的速度,甚至都不到。
開發語言:python2.7
開發環境:64位windows8系統,4g記憶體,i7-3612qm處理器。
資料庫:mongodb 3.2.0
(python編輯器:pycharm 5.0.4;mongodb管理工具:mongobooster 1.1.1)
啟動前配置:
information 表:_id:採用 「使用者id」 作為唯一標識。
birthday:出生日期。
city:所在城市。
gender:性別。
marriage:婚姻狀況。
nickname:微博暱稱。
num_fans:粉絲數量。
num_follows:關注數量。
num_tweets:已發微博數量。
province:所在省份。
signature:個性簽名。
url:微博的個人首頁。
tweets 表:
IOS新浪微博分享鏈結
所以,筆者這裡把分享的文字和url拼在一起,結果就可以分享帶鏈結的內容了。把分享內容和ulr拼接在一起 nsstring sinacontent nsstring stringwithformat content,url sharedcontent sharesdk content sinacont...
實戰新浪微博 騰訊微博的分享功能
算上也是半年前做的,今天翻出來放出來,作為日誌記錄,也許能幫助一些人。我做的大概介面是如下圖。呵呵,上面這些都是些預備工作。下面正式開發。以上就是工程上設定。下面具體 以下處理sina的相關 以下是處理sina的授權驗證函式,qq的未寫。void removeauthdata bool islogg...
爬蟲初探 新浪微博搜尋爬蟲總覽
在這裡需要說明一下,一般來說,資料抓取工作主要有兩種方式 一是通過抓包工具 fiddle 進行抓包分析,獲取ajax請求的url,通過url抓取資料,這也是更為通用 推薦的方法 另外一種方法就是後面要使用的模擬瀏覽器行為的爬蟲。那麼,在源 中資訊不可見的情況下,通過什麼方法能夠提取js 中的html...