入門小爬蟲

python爬蟲最基本流程是，獲取請求，解析頁面，處理頁面資料。python獲取頁面的的第三方庫很多，像request，urllib，解析方法有最簡單的re正規表示式，也有專門用來解析的庫xmlx，beautifulsoup等。下面以request，正規表示式為例。

一、獲取請求，得到網頁文字，先上**：

import requests


#獲取請求
response = requests.get('')    #獲取請求
print(response.status_code)  # 列印狀態碼
print(response.url)          # 列印請求url
print(response.headers)      # 列印頭資訊
print(response.cookies)      # 列印cookie資訊
html = response.text  #以文字形式得到網頁原始碼

print(response.content) #以位元組流形式列印

二、接下來可以解析頁面了

解析頁面用到的技術比較多了，根據獲取到的資料選擇不同解析方式，如果獲得到的是json字串，用json解析，這個比較簡單，

jsonstring = json.loads(html)

別的解析方式有beautiful soup，lxml具體方法可以看我的其他部落格：

1、beautifulsoup解析方式

2、lxml解析方式

接下來就可以處理資料並入庫了

爬蟲入門小知識

url response requests.get url print response c users administrator pycharmprojects day1 venv scripts python.exe c users administrator pycharmprojects ...

requests庫入門之小爬蟲

通用框架 try r requests.get url,timeout 30 r.raise for status return r.text except return 產生異常爬取某網頁100次花費的時間 import requests import time defgethtmltext ...

python爬蟲入門簡單爬蟲

coding utf 8 from bs4 import beautifulsoup,soupstrainer from threading import lock,thread import sys,time,os from urlparse import urlparse,urljoin fro...

入門小爬蟲

爬蟲入門小知識

requests庫入門之小爬蟲

python爬蟲入門簡單爬蟲

相關推薦