沒開多久的部落格,排名總是顯示 千里之外,受到 如何檢視csdn 排名 這篇文章的啟發,結合最近學習的爬蟲技術寫了個小工具。
#-*- coding:utf-8 -*-
import urllib2
import re
url = ''
username = raw_input('input your csdn username')
headers =
request = urllib2.request(url+username,headers=headers)
response = urllib2.urlopen(request)
content = response.read()
pattern = re.compile('(\w+)')
personal_list = re.findall(pattern,content)
rank = personal_list[1]
print username,'rank:',rank
一開始沒有headers這一行,直接報錯了
後來參考了這篇解決了。
3月20日 Python自製簡易爬蟲框架
簡易框架由以下幾個模組 html解析器 使用beautifulsoup對頁面內容進行解析 html輸出器 對爬取的結果封裝成html檔案輸出 url管理器 class urlmanager object def init self self.new urls set self.old urls se...
Python爬蟲之自製英漢字典
針對上述過程,對於熟悉爬蟲的讀者來說,是不難完成將輸入的單詞的中文意思從網頁中提取出來的。筆者的 如下 import requests from bs4 import beautifulsoup get word from command line word input enter a word e...
python爬蟲之模擬登陸 CSDN篇
請求大神幫助 最近想搞一下爬蟲的模擬登陸,就想直接拿csdn練手了,一開始還想著一篇文章寫完,寫到一半發現,大意了,csdn有加密,得慢慢啃了,啃著啃著誰知道又發現問題了。勾選preserve log 是為了檢視登陸成功後,也就是頁面重新整理前的網頁檔案,我們需要搞清楚它提交了什麼樣的引數。這一次賬...