靜態網頁一般指純粹的html格式的網頁,對於爬蟲來說,靜態網頁的資料都比較容易獲取,利用好requests庫就能輕鬆傳送http請求,獲取到網頁的資料。
requests庫可以幫助我們獲取到響應內容,再通過一些引數來滿足我們的需求,它的安裝也十分簡單,對於windows使用者來說,在已經裝好python環境之後,可以通過win+r快捷鍵開啟cmd命令列,輸入:
pip install requests
就可以等待安裝了
requests常用於獲取某個網頁的內容。使用**
r = request.get(url)
執行**如下所示:
print("文字編碼:",r.encoding)
print("響應狀態碼:",r.status_code)
print("字串方式的響應體:",r.text)
print("位元組方式的響應體",r.content)
執行結果如下所示:
這個時候,已經成功獲取到資訊並且輸出了。
python爬蟲 爬取靜態網頁
爬蟲新手剛入門,萌新練手交流作 import requests import bs4 from bs4 import beautifulsoup 偽裝瀏覽器,獲取源 def gethtml url headers 偽裝瀏覽器 response requests.get url,headers hea...
靜態網頁內容爬取(python)
以 漏洞掃瞄為例 from bs4 import beautifulsoup from urllib.request import urlopen import pymysql as mysqldb import re import os 插入資料 def insertdata lis cursor...
Python 爬取網頁
先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...