入門小爬蟲

2021-09-02 19:58:26 字數 784 閱讀 9713

python爬蟲最基本流程是,獲取請求,解析頁面,處理頁面資料 。python獲取頁面的的第三方庫很多,像request,urllib,解析方法有最簡單的re正規表示式,也有專門用來解析的庫xmlx,beautifulsoup等。下面以request,正規表示式為例。

一、獲取請求,得到網頁文字,先上**:

import requests

#獲取請求

response = requests.get('')    #獲取請求

print(response.status_code)  # 列印狀態碼

print(response.url)          # 列印請求url

print(response.headers)      # 列印頭資訊

print(response.cookies)      # 列印cookie資訊

html = response.text  #以文字形式得到網頁原始碼

print(response.content) #以位元組流形式列印

二、接下來可以解析頁面了

解析頁面用到的技術比較多了,根據獲取到的資料選擇不同解析方式,如果獲得到的是json字串,用json解析,這個比較簡單,

jsonstring = json.loads(html)
別的解析方式有beautiful soup,lxml具體方法可以看我的其他部落格:

1、beautifulsoup解析方式

2、lxml解析方式

接下來就可以處理資料並入庫了

爬蟲入門小知識

url response requests.get url print response c users administrator pycharmprojects day1 venv scripts python.exe c users administrator pycharmprojects ...

requests庫入門之小爬蟲

通用 框架 try r requests.get url,timeout 30 r.raise for status return r.text except return 產生異常 爬取某網頁100次花費的時間 import requests import time defgethtmltext ...

python爬蟲入門簡單爬蟲

coding utf 8 from bs4 import beautifulsoup,soupstrainer from threading import lock,thread import sys,time,os from urlparse import urlparse,urljoin fro...