python爬蟲最基本流程是,獲取請求,解析頁面,處理頁面資料 。python獲取頁面的的第三方庫很多,像request,urllib,解析方法有最簡單的re正規表示式,也有專門用來解析的庫xmlx,beautifulsoup等。下面以request,正規表示式為例。
一、獲取請求,得到網頁文字,先上**:
import requests
#獲取請求
response = requests.get('') #獲取請求
print(response.status_code) # 列印狀態碼
print(response.url) # 列印請求url
print(response.headers) # 列印頭資訊
print(response.cookies) # 列印cookie資訊
html = response.text #以文字形式得到網頁原始碼
print(response.content) #以位元組流形式列印
二、接下來可以解析頁面了
解析頁面用到的技術比較多了,根據獲取到的資料選擇不同解析方式,如果獲得到的是json字串,用json解析,這個比較簡單,
jsonstring = json.loads(html)
別的解析方式有beautiful soup,lxml具體方法可以看我的其他部落格:
1、beautifulsoup解析方式
2、lxml解析方式
接下來就可以處理資料並入庫了
爬蟲入門小知識
url response requests.get url print response c users administrator pycharmprojects day1 venv scripts python.exe c users administrator pycharmprojects ...
requests庫入門之小爬蟲
通用 框架 try r requests.get url,timeout 30 r.raise for status return r.text except return 產生異常 爬取某網頁100次花費的時間 import requests import time defgethtmltext ...
python爬蟲入門簡單爬蟲
coding utf 8 from bs4 import beautifulsoup,soupstrainer from threading import lock,thread import sys,time,os from urlparse import urlparse,urljoin fro...