成功抓取csdn閱讀量過萬博文

var username = "miniblog";

閱讀數在2w的才儲存

先選乙個

提取鏈結時，只提取visited_num>2w的

//*[@id="rasss"]

如何不提取其它url,只提取

呢必須含有aritcle關鍵字

xpath提取頁面中script裡宣告的變數值

response.xpath('/html/head/script[1]').re('username = "(.+)"')

response.xpath('/html/head/script[1]').re("filename = '(.+)'")

response.xpath('/html/head/script[1]').re("commentscount = (.+);")

注意元素是從1開始的 ,如div[1]表示第乙個，不是div[0]

xpath最外層最好用單引號！除非必須使用雙引號（比如裡面有單引號了）

這種頁面目前不能爬

不要執迷於技術了，把學一門技術所花的精力用一半到其它領域，如財經等，可能會有更多收穫。

抓取csdn的資料

如有不明白的地方歡迎加qq群 14670545 質量不行，後面採集起來卡，原因是正則我太菜了，沒有開多執行緒採集。下面我舉例目標頁面是有圖有真相看看採集後的效果下面是採集到的每個帖子樓主的內容以及一些簡單的顯示。之所以沒有顯示出來，因為csdn是用的乙個專門的伺服器，設定了防盜煉，這個自己搗鼓...

CSDN部落格專家申請成功

又乙個值得紀念的日子，上週六申請csdn部落格專家，今天中午審批通過。使用csdn好幾年了，從未想到能把部落格一步步的寫到這個地步。曾經，寫過一段部落格，只是為了記錄和分享。中間由於工作的變動和繁忙中斷了很久。直到有一天，登入部落格時，發現粉絲從2個變成了3個，頓感要對得起這個多出來的粉絲。另外加上...

抓取csdn部落格的所有文章url

輸入部落格的主網域名稱，就可以抓取這個部落格所有的文章編號。coding utf8 import string import urllib2 import re import time import random class csdn spider def init self,url self.my...

成功抓取csdn閱讀量過萬博文

抓取csdn的資料

CSDN部落格專家申請成功

抓取csdn部落格的所有文章url

相關推薦