昨天下班後忽然興起想寫乙個爬蟲抓抓網頁上的東西。花了乙個鐘簡單學習了python的基礎語法,然後參照網上的例子自己寫了個爬蟲。
python資料爬下來儲存在本地,一般是檔案或資料庫中,但是檔案形式相比要更加簡單,如果www.cppcns.com只是自己寫爬蟲玩,可以用檔案形式來儲存資料。
#coding=utf-8
import urllib.request
import re
import os
'''urllwww.cppcns.comib 模組提供了讀取web頁面資料的介面,我們可以像讀取本地檔案一樣讀取www和ftp上的資料
urlopen 方法用來開啟乙個url
read方法 用於讀取url上的資料
html = gethtml("程式設計客棧n/34378366").decode("utf-8");
imagesurl = getimg(html);
if os.path.exists("d:/imags") == false:
os.mkdir("d:/imags");
count = 0;
for url in imagesurl:
print(url)
if(url.find('.') != -1):
name = url[url.find('.',len(url) - 5):];
bytes = urllib.request.urlopen(url);
程式設計客棧 f = open("d:/imags/"+str(count)+name, 'wb');
f.write(bytes.read());
f.flush();
f.close();
count+=1
經測試,基本功能還是可以實現的。花的較多的時間就是正則匹配**,因為自己對正規表示式也不是非常熟悉。所以還是花了點時間。
注:上面的程式基於 python 3.5。python3 和 python2 還是有些區別的。我剛開始看基礎語法的時候就栽了一些坑里。
以上就是python資料爬下來儲存www.cppcns.com在**的詳細內容,感謝大家的學習和對我們的支援。
本文標題: python資料爬下來儲存的位置
本文位址:
關於python爬蟲中報錯以及爬下來的資料中文亂碼
爬蟲報錯以及爬下來的html中文亂碼 最近在學習python爬蟲時,用requests.get獲取的資料進行decode 時發現程式會報錯,因為python預設以utf 8進行decode,報錯提示utf 8無法decode,因此用decode utf 8 同樣會報錯。在網上查詢了一下說指定用gbk...
python 儲存float型別的小數的位數方法
python保留兩位小數 in 1 a 5.026 in 2 b 5.000 in 3 round a,2 out 3 5.03 in 4 round b,2 out 4 5.0 in 5 2f a out 5 5.03 in 6 2f b out 6 5.00 in 7 float 2f a ou...
bitmap 位儲存實現海量資料的標記
針對海量的資料,一般的記憶體無法儲存,提供一種位儲存的標記方法?如給定10億個數字,詢問其中任意乙個數字是否出現,採取傳統的儲存方式,以32位機器為例 乙個int占用32位,也就是4位元組 而bitmap的思想是,無符號int型別的範圍是確定的 即0 2的32次方 1 那麼將乙個int拆分開來看,其...