//首先,設定檔案字元編碼格式為utf-8
#coding: utf-8
import urllib
import chardet
total_cnt=29
target_str="順受"
//判斷目標字串編碼格式
print chardet.detect(target_str)
for i in range(1, total_cnt+1):
content=urllib.urlopen("" % (str(i))).read()
判斷網頁的編碼格式,如果不一樣要進行編碼格式的轉換
#print chardet.detect(content)
if target_str in content:
print "find target url, ind is %d" % (i)
else:
print "still not found"
python抓取簡單頁面資訊
我們最常規的做法就是通過滑鼠右鍵,選擇另存為。但有些滑鼠右鍵的時候並沒有另存為選項,還有辦法就通過就是通過截圖工具擷取下來,但這樣就降低的清晰度。好吧 其實你很厲害的,右鍵檢視頁面源 我們可以通過python 來實現這樣乙個簡單的爬蟲功能,把我們想要的 爬取到本地。下面就看看如何使用 python ...
利用python抓取頁面資料
1 首先是安裝python 注意python3.x和python2.x是不相容的,我們最好用python3.x 安裝方法 安裝python 2 安裝成功後,再進行我們需要的外掛程式安裝。這裡我們需要用到requests和pymssql兩個外掛程式re是自帶的 注 這裡我們使用的是sqlserver所...
Python抓取中文網頁
早就有想法把部落格每天的訪問流量記下來,剛好現在申請了gae的應用,又開始學python,正好拿這個練手。打算先利用python把訪問記錄儲存在本地,熟悉之後可以部署到gae,利用gae提供的cron就可以每天更近訪問流量了。ok,開始 首先是簡單的網頁抓取程式 python view plain ...