「形而上者為之道,形而下者為之器「
學程式語言,應學習其核心思想,掌握其精髓!應懂得透過現象抓到本質的東西;
建立此系列博文,理清自己的思路,python大道淵源流長,且行且珍惜。
爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由我們來控制;一,獲取整個頁面資料如果它在抓取乙個網頁,在這個網中發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。這樣,整個連在一起的大網對這之蜘蛛來說觸手可及,分分鐘爬下來不是事兒。
#coding=utf-8
import urllib
defgethtml
(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = gethtml("")
print html
二,篩選頁面中想要的資料
python 提供了非常強大的正規表示式
print getimg(html)三,將頁面篩選的資料儲存到本地
#coding=utf-8
Python爬蟲基礎 1
url uniform resource locator 統一資源定位符。採用url可以用一種統一的格式來描述各種資訊資源,包括檔案 伺服器的位址和目錄等。url的一般格式為 帶方括號的為可選項 protocol hostname port path parameters query fragmen...
Python爬蟲隨筆1
問答 做到現在,沒有資料啊,所以需要一些資料 爬蟲很好玩,早就在知乎看見別人爬各種羞羞 的 不過一直沒時間,最近感覺自己秋招也沒啥希望,還是做點自己想做的事情吧 我的python基礎幾乎為0,雖然看過語法,然而都忘了,這玩意不寫,兩天就忘了 所以給點動力,也可以好好工作一把 一直聽說爬蟲,其實並不是...
Python爬蟲基礎1
python版本 3.6 編譯器 pycharm 系統 win 10 1 file new project create 2 右擊建立的專案 new python file 3 開始輸入 import urllib.request response urllib.request urlopen pr...