1 爬蟲簡介

定義：一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊

網頁解析器：將乙個網頁字串進行解析，可以按照我們的要求來提取出我們有用的資訊，也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式（直觀，將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊，當文件比較複雜的時候，該方法提取資料的時候就會非常的困難）、html.parser（python自帶的）、beautifulsoup（第三方外掛程式，可以使用python自帶的html.parser進行解析，也可以使用lxml進行解析，相對於其他幾種來說要強大一些）、lxml（第三方外掛程式，可以解析 xml 和 html），html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。

應用程式：就是從網頁中提取的有用資料組成的乙個應用。

1先看如下**：

def
main
(var)
:print
("hiya"
, var)
main(1)
if __name__ ==
"__main__"
:    main(
2)

執行結果是：

hiya 1 hiya 2

再看乙個**示例

print
("test1"
)def
fun():
print
("fun"
)def
main()
:print
("main"
)    fun(
)if __name__ ==
'__main__'
:    main(
)

執行結果是：

test1 main

fun

python是解釋型語言，執行流程通過如下規則判斷：

一段python程式以py檔案執行時，檔案屬性__name__為main；作為模組匯入時，檔案屬性__name__為檔名(模組名)

python中首先執行最先出現的非函式定義和非類定義的沒有縮排的**

後續我們都進行當前執行程式的判斷，在main中進行整個程式的邏輯控制

if __name__ == '__main__':

來自菜鳥教程 ↩︎

1 爬蟲簡介

爬蟲 1 爬蟲簡介及基礎庫

爬蟲一爬蟲簡介

Scrapy爬蟲二爬蟲簡介

1 爬蟲簡介

爬蟲 1 爬蟲簡介及基礎庫

爬蟲 一 爬蟲簡介

Scrapy爬蟲 二 爬蟲簡介

相關推薦

爬蟲一爬蟲簡介

Scrapy爬蟲二爬蟲簡介