Python之道爬蟲1

「形而上者為之道，形而下者為之器「

學程式語言，應學習其核心思想，掌握其精髓！應懂得透過現象抓到本質的東西；

建立此系列博文，理清自己的思路，python大道淵源流長，且行且珍惜。

爬蟲，即網路爬蟲，大家可以理解為在網路上爬行的一直蜘蛛，網際網路就比作一張大網，而爬蟲便是在這張網上爬來爬去的蜘蛛，如果它遇到資源，那麼它就會抓取下來。想抓取什麼？這個由我們來控制；

如果它在抓取乙個網頁，在這個網中發現了一條道路，其實就是指向網頁的超連結，那麼它就可以爬到另一張網上來獲取資料。這樣，整個連在一起的大網對這之蜘蛛來說觸手可及，分分鐘爬下來不是事兒。

一，獲取整個頁面資料

#coding=utf-8
import urllib
defgethtml
(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = gethtml("")
print html

二，篩選頁面中想要的資料

python 提供了非常強大的正規表示式

print getimg(html)三，將頁面篩選的資料儲存到本地

#coding=utf-8
				Python爬蟲基礎 1
url uniform resource locator 統一資源定位符。採用url可以用一種統一的格式來描述各種資訊資源，包括檔案 伺服器的位址和目錄等。url的一般格式為 帶方括號的為可選項 protocol hostname port path parameters query fragmen...
				Python爬蟲隨筆1
問答 做到現在，沒有資料啊，所以需要一些資料 爬蟲很好玩，早就在知乎看見別人爬各種羞羞 的 不過一直沒時間，最近感覺自己秋招也沒啥希望，還是做點自己想做的事情吧 我的python基礎幾乎為0，雖然看過語法，然而都忘了，這玩意不寫，兩天就忘了 所以給點動力，也可以好好工作一把 一直聽說爬蟲，其實並不是...
				Python爬蟲基礎1
python版本 3.6 編譯器 pycharm 系統 win 10 1 file new project create 2 右擊建立的專案 new python file 3 開始輸入 import urllib.request response urllib.request urlopen pr...

Python之道 爬蟲1

Python爬蟲基礎 1

Python爬蟲隨筆1

Python爬蟲基礎1

相關推薦

Python之道爬蟲1