var username = "miniblog";
閱讀數在2w的才儲存
先選乙個
提取鏈結時,只提取visited_num>2w的
//*[@id="rasss"]
如何不提取其它url,只提取
呢必須含有aritcle關鍵字
xpath提取頁面中script裡宣告的變數值
response.xpath('/html/head/script[1]').re('username = "(.+)"')
response.xpath('/html/head/script[1]').re("filename = '(.+)'")
response.xpath('/html/head/script[1]').re("commentscount = (.+);")
注意元素是從1開始的 ,如div[1]表示第乙個,不是div[0]
xpath最外層最好用單引號!除非必須使用雙引號(比如裡面有單引號了)
這種頁面目前不能爬
不要執迷於技術了,把學一門技術所花的精力用一半到其它領域,如財經等,可能會有更多收穫。
抓取csdn的資料
如有不明白的地方歡迎加qq群 14670545 質量不行,後面採集起來卡,原因是正則我太菜了,沒有開多執行緒採集。下面我舉例 目標頁面是有圖有真相 看看採集後的效果 下面是採集到的每個帖子樓主的內容以及一些簡單的顯示。之所以沒有顯示出來,因為csdn是用的乙個專門的伺服器,設定了防盜煉,這個自己搗鼓...
CSDN部落格專家申請成功
又乙個值得紀念的日子,上週六申請csdn部落格專家,今天中午審批通過。使用csdn好幾年了,從未想到能把部落格一步步的寫到這個地步。曾經,寫過一段部落格,只是為了記錄和分享。中間由於工作的變動和繁忙中斷了很久。直到有一天,登入部落格時,發現粉絲從2個變成了3個,頓感要對得起這個多出來的粉絲。另外加上...
抓取csdn部落格的所有文章url
輸入部落格的主網域名稱,就可以抓取這個部落格所有的文章編號。coding utf8 import string import urllib2 import re import time import random class csdn spider def init self,url self.my...