定義:一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊
網頁解析器:將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式(直觀,將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊,當文件比較複雜的時候,該方法提取資料的時候就會非常的困難)、html.parser(python自帶的)、beautifulsoup(第三方外掛程式,可以使用python自帶的html.parser進行解析,也可以使用lxml進行解析,相對於其他幾種來說要強大一些)、lxml(第三方外掛程式,可以解析 xml 和 html),html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。
應用程式:就是從網頁中提取的有用資料組成的乙個應用。
1先看如下**:
def
main
(var)
:print
("hiya"
, var)
main(1)
if __name__ ==
"__main__"
: main(
2)
執行結果是:
hiya 1
hiya 2
再看乙個**示例print
("test1"
)def
fun():
print
("fun"
)def
main()
:print
("main"
) fun(
)if __name__ ==
'__main__'
: main(
)
執行結果是:
test1
main
fun
python是解釋型語言,執行流程通過如下規則判斷:
一段python程式以py檔案執行時,檔案屬性__name__為main;作為模組匯入時,檔案屬性__name__為檔名(模組名)
python中首先執行最先出現的非函式定義和非類定義的沒有縮排的**
後續我們都進行當前執行程式的判斷,在main中進行整個程式的邏輯控制
if __name__ == '__main__':
來自菜鳥教程 ↩︎ 爬蟲 1 爬蟲簡介及基礎庫
學習爬蟲,第一步便是要能夠模擬瀏覽器向伺服器發出請求。這一基礎操作可以借助 python 的庫來幫助我們實現,我們只需要學會這些庫的使用即可。最基礎的 http 庫有 注 在 python2 中,有 urllib 和 urllib2 兩個庫來實現 http 請求的傳送。而在 python3 中,ur...
爬蟲 一 爬蟲簡介
很多人都將網際網路比喻成一張非常大的網,將世界連線起來。如果說網際網路是一張網,那麼爬蟲就像在網上爬的小蟲子,通過網頁的鏈結位址來尋找網頁,通過特定的搜尋演算法來確定路線,通常從 的某乙個頁面開始,讀取該網頁的內容,找到該網頁中的其他鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,就這樣一直迴圈下去,...
Scrapy爬蟲 二 爬蟲簡介
列幾個簡單的例子,看看就行 urllib庫 基於python3.5 encoding utf 8 import urllib.request def download data url response urllib.request.urlopen url print response.getcod...