python3爬蟲入門

2021-08-20 11:02:55 字數 2451 閱讀 4173

pip install requests
2、匯入requests

>>> 

import requests

3、 requests方法

requests.get() #獲取html網頁的主要方法,對應http的get
4、 獲取流程

url=""

#使用get方法獲取資料,返回包含網頁資料的response響應,超時時間測試

r = requests.get(url,timeout=***))

#http請求的返回狀態, 200表示連線成功

r.status_code

#返回物件的文字內容

r.text

#返回物件的二進位制形式

r.content

#分析返回物件的編碼方式

r.encoding

#響應內容編碼方式(備選編碼方式)

#丟擲異常

raise_for_status

四、解析和匹配資料

三種方法:beautifulsoup、lxml的xpath、正規表示式

效率比較:

2.1.1 匯入lxml,返回xml結構:

from lxml import etree

html ='''

#省略'''

s = etree.html(html)

print(s.xpath())

2.2.2 xpath的幾個方法

#獲取文字內容

text()

#獲取注釋

comment()

@xx#獲取其它任何屬性 @href、@src、@value

#獲取某個標籤下所有的文字(包括子標籤下的文字),使用string

string()

#匹配字串前面相等

starts-with

#匹配任何位置相等

contains

xpath常用的符號:

2.3 正規表示式

幾個常見的正規表示式如下:

beautiful soup是python的乙個庫,最主要的功能是從網頁抓取資料。

import requests

import bs4

from bs4 import beautifulsoup

r=requests.get("")

soup = beautifulsoup(r.text,'lxml')

soup.title

soup.head.children

soup.find_all('a')

a=soup.find_all('small',attrs=)

soup.find('small',attrs=).get_text()

soup.find('div',attrs=).get_text()

for i in range(len(a)):

print(a[i].get_text())

python3 爬蟲入門

這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...

Python3爬蟲入門 一

python3爬蟲入門 在瀏覽器的位址列輸入url位址,在網頁處右鍵單擊,找到檢查。不同瀏覽器的叫法不同,chrome瀏覽器叫做檢查,firefox瀏覽器叫做檢視元素,但是功能都是相同的 可見即可爬 技術上 違法的 擦邊球 一 url 專業一些的叫法是統一資源定位符 uniform resource...

python3爬蟲快速入門攻略

複製過來的內容 一 什麼是網路爬蟲?1 定義 網路爬蟲 web spider 又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。2 簡介 網路蜘蛛是乙個很形象的名字。如果把網際網路比喻成乙個蜘蛛網,那麼spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈結位址來尋找網...