例如:
url 專業一些的叫法是統一資源定位符(uniform resource locator),它的一般格式如下(帶方括號的為可選項):
protocol ?/ hostname[:port] / path / [;parameters][?query]#fragment
url 的格式主要由前個三部分組成:
:443
這兩個url都可以開啟網頁,區別在於乙個是 http 協議,乙個是 https 協。
http協議預設使用的埠是80,https協議預設使用的埠是443。
每乙個url的背後,其實都是對應著一台伺服器的,甚至成千上萬臺。
在講解爬蟲內容之前,我們需要先學習一項寫爬蟲的必備技能:審查元素。
在瀏覽器的位址列輸入 url 位址,在網頁處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,chrome 瀏覽器叫做檢查,firefox 瀏覽器叫做檢視元素,但是功能都是相同的)
**瀏覽器就是作為客戶端從伺服器端獲取資訊,然後將資訊解析,並展示給我們的。**我們可以在本地修改 html 資訊,為網頁"整容",但是我們修改的資訊不會回傳到伺服器,伺服器儲存的 html 資訊不會改變。重新整理一下介面,頁面還會回到原本的樣子。這就跟人整容一樣,我們能改變一些表面的東西,但是不能改變我們的基因。
pip install requests
requests庫的官方教程
網頁解析器:將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式(直觀,將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊,當文件比較複雜的時候,該方法提取資料的時候就會非常的困難)、html.parser(python自帶的)、beautifulsoup(第三方外掛程式,可以使用python自帶的html.parser進行解析,也可以使用lxml進行解析,相對於其他幾種來說要強大一些)、lxml(第三方外掛程式,可以解析 xml 和 html),html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。import requests
if __name__ == '__main__':
target = ""
req = requests.get(url = target)
req.encoding = 'utf-8'
print(req.text)
應用程式:就是從網頁中提取的有用資料組成的乙個應用。
下面用乙個圖來解釋一下排程器是如何協調工作的:
大致分三個步驟:
發起請求就用requests
解析資料有xpath、beautiful soup、正規表示式等,本文用beautifulsoup
儲存資料:用常規的文字儲存,後續繼續用docx和xlsx儲存
pip install bs4
官方中文教 Python爬蟲學習(一) 基本介紹
爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。門戶 通過制定相應的策略和技術手段,防止爬蟲程式進行 資料的爬取。爬蟲程式通過相應的策略和技術手段,破解...
Python爬蟲筆記 一 爬蟲基本入門
最近在做乙個專案,這個專案需要使用網路爬蟲從特定 上爬取資料,於是乎,我打算寫乙個爬蟲系列的文章,與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章,這次就簡單介紹一下python爬蟲,後面根據專案進展會持續更新。一 何謂網路爬蟲 網路爬蟲的概念其實不難理解,大家可以將網際網路理解為一張巨大無比的...
python爬蟲基本流程 Python爬蟲流程
python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...