python爬蟲初識

2021-09-26 20:48:04 字數 1022 閱讀 6978

1.爬蟲定義

學習python爬蟲首先要知道python爬蟲是什麼:爬蟲就是提取網頁中有效的資料。

原理就是向伺服器提交請求,伺服器響應之後並返回資料。返回的資料再篩選提取之後就是我們要的有效資料。整個過程就是爬蟲。

2.爬蟲組成

1.傳送請求的python**。

2.被爬取的網頁。

3.網頁結構

爬取網頁之前先簡單了解一下網頁的結構

htmlhtml是網頁的結構,類似於**框架。帶』<>'符號都是html的標籤,且成對出現

css負責頁面的樣式

jscript表示網頁的各種功能。網頁中所有的互動和特效都在jscript中。

參照c語言中文網python爬蟲入門

例項中用到requests庫,這是乙個功能強大、簡單易用的http請求庫。

用到requests庫中的兩種請求方式:

**1.get:**最常見方式,一般用於獲取或者查詢資源資訊,也是大多是**使用的方式,響應速度快。

2.post:相比get方式多了以表單形式上傳引數的功能,除了能夠查詢資訊之外還可以修改資訊。

beautiful soup:python自帶的乙個庫,主要功能是從網頁住抓取資料。但是目前被移植到bs4庫中,在使用beautiful soup庫時需要先安裝bs4庫。在例項中指定使用 lxml 解析器進行解析。

beautiful soup庫支援 python 標準庫中的 html 解析器又支援一些第三方解析器,但是 lxml 庫功能更加強大、速度更快,所以安裝使用 lxml 庫。

Python爬蟲 初識爬蟲

模擬瀏覽器開啟網頁,獲取網頁中我們想要的那部分資料 瀏覽器開啟網頁的過程 當你在瀏覽器中輸入位址後,經過dns伺服器找到伺服器主機,向伺服器傳送乙個請求,伺服器經過解析後傳送給使用者瀏覽器結果,包括html,js,css等檔案內容,瀏覽器解析出來最後呈現給使用者在瀏覽器上看到的結果 瀏覽器傳送訊息給...

Python爬蟲初識

目標物件為靜態 url管理器 網頁解析器 beautifulsoup 執行流程 避免重複抓取 迴圈抓取 功能 訪問方式 import urllib2 response urllib2.urlopen print response.getcode 獲取狀態碼,200表示獲取成功 cont respon...

初識Python爬蟲

由於本人最近正在學習爬蟲的相關知識,對於爬蟲的很多了解的都不是透徹,有什麼錯誤的地方,還請不吝指出。話不多說,進入正題。第一天,主要就是介紹什麼是爬蟲。網路爬蟲又稱網路蜘蛛 網路螞蟻 網路機械人 蠕蟲等,可以自動化瀏覽網路中的資訊,當然瀏覽資訊的時候需要按照我們制定的規則進行,這些規則我們稱之為網路...