一 python爬蟲學習爬蟲基本概念

例如：

url 專業一些的叫法是統一資源定位符（uniform resource locator），它的一般格式如下（帶方括號的為可選項）：

protocol ?/ hostname[:port] / path / [;parameters][?query]#fragment

url 的格式主要由前個三部分組成：

:443

這兩個url都可以開啟網頁，區別在於乙個是 http 協議，乙個是 https 協。

http協議預設使用的埠是80，https協議預設使用的埠是443。

每乙個url的背後，其實都是對應著一台伺服器的，甚至成千上萬臺。

在講解爬蟲內容之前，我們需要先學習一項寫爬蟲的必備技能：審查元素。

在瀏覽器的位址列輸入 url 位址，在網頁處右鍵單擊，找到檢查。(不同瀏覽器的叫法不同，chrome 瀏覽器叫做檢查，firefox 瀏覽器叫做檢視元素，但是功能都是相同的)

**瀏覽器就是作為客戶端從伺服器端獲取資訊，然後將資訊解析，並展示給我們的。**我們可以在本地修改 html 資訊，為網頁"整容"，但是我們修改的資訊不會回傳到伺服器，伺服器儲存的 html 資訊不會改變。重新整理一下介面，頁面還會回到原本的樣子。這就跟人整容一樣，我們能改變一些表面的東西，但是不能改變我們的基因。

pip install requests

requests庫的官方教程

import requests
if __name__ == '__main__':
target = ""
req = requests.get(url = target)
req.encoding = 'utf-8'
print(req.text)

網頁解析器：將乙個網頁字串進行解析，可以按照我們的要求來提取出我們有用的資訊，也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式（直觀，將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊，當文件比較複雜的時候，該方法提取資料的時候就會非常的困難）、html.parser（python自帶的）、beautifulsoup（第三方外掛程式，可以使用python自帶的html.parser進行解析，也可以使用lxml進行解析，相對於其他幾種來說要強大一些）、lxml（第三方外掛程式，可以解析 xml 和 html），html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。

應用程式：就是從網頁中提取的有用資料組成的乙個應用。

下面用乙個圖來解釋一下排程器是如何協調工作的:

大致分三個步驟：

發起請求就用requests

解析資料有xpath、beautiful soup、正規表示式等，本文用beautifulsoup

儲存資料：用常規的文字儲存，後續繼續用docx和xlsx儲存

pip install bs4

官方中文教

一 python爬蟲學習爬蟲基本概念

Python爬蟲學習（一）基本介紹

Python爬蟲筆記一爬蟲基本入門

python爬蟲基本流程 Python爬蟲流程

一 python爬蟲學習 爬蟲基本概念

Python爬蟲學習（一） 基本介紹

Python爬蟲筆記 一 爬蟲基本入門

python爬蟲基本流程 Python爬蟲流程

相關推薦

一 python爬蟲學習爬蟲基本概念

Python爬蟲學習（一）基本介紹

Python爬蟲筆記一爬蟲基本入門