獲取網頁就是獲取網頁的源**。python本身提供的庫有:urllib, request等。
示例:獲取知識星球登入頁
"""獲取知識星球登入頁
"""from urllib import request
url = ''
res = request.urlopen(url) # 得到httpresponse物件
html_page = res.read().decode('utf8') # 獲取登入頁面源**,型別是字串
print(html_page)
網頁獲取源**後就是分析網頁,提取到我們想要的資料。提取資料主要有以下方法:
1.使用正規表示式提取資訊。方法萬能,但是複雜。
2. 使用相關提取資料的庫提取資訊。如beautiful soap, pyquery, lxml等。
示例:獲取知識星球登入頁「」標籤裡面的內容。
"""獲取知識星球登入頁
"""from urllib import request
import re
url = ''
res = request.urlopen(url) # 獲取httpresponse物件
html_page = res.read().decode('utf8') # 獲取登入頁面源**,型別是字串
print(html_page)
data = re.findall('(.*)', html_page) # findall()總返回乙個列表
print(data[0]) # 知識星球
獲取資料後為了方便以後使用,需要將資料儲存。有以下幾種儲存方式:
1.儲存為txt, json等文字。
2.儲存到mysql, mongodb等資料庫。
3.其他
示例:將title標籤裡面的內容儲存到test.txt文字
# -*- coding:utf-8 -*-
"""獲取知識星球登入頁
"""from urllib import request
import re
url = ''
res = request.urlopen(url) # 獲取httpresponse物件
html_page = res.read().decode('utf8') # 獲取登入頁面源**,型別是字串
print(html_page)
data = re.findall('(.*)', html_page) # findall()總返回乙個列表
print(data[0]) # 知識星球
# 將資料儲存到test.txt檔案
with open('test.txt', 'w', encoding='utf8') as out_file: # 開啟檔案
out_file.write(data[0]) # 將資料寫入到檔案
out_file.close() # 關閉檔案
[1]python官方文件url.request:
[2]崔慶才,《python3網路爬蟲開發實戰》
爬蟲基本原理
一 爬蟲是什麼?爬蟲要做的是什麼?使用者獲取網路資料的方式是 爬蟲程式要做的就是 區別在於 我們的爬蟲程式只提取網頁 中對我們有用的資料 為什麼要做爬蟲 爬蟲的價值 網際網路中最有價值的便是資料,比如天貓 的商品資訊,鏈家網的租房資訊,雪球網的 投資資訊等等,這些資料都代表了各個行業的真金 可以說,...
爬蟲基本原理
三種爬蟲方式 通用爬蟲 抓取系統重要組成部分,獲取的是整張頁面資料 聚焦爬蟲 建立在通用爬蟲之上,抓取頁面指定的區域性內容 增量式爬蟲 檢測 資料更新的情況,只抓取更新出來的資料 https協議 安全的超文字傳輸協議 證書秘鑰加密 請求頭 響應頭 加密方式 傳送請求 獲取響應內容 解析內容 儲存資料...
爬蟲基本原理
一 爬蟲介紹 本質,就是想 傳送http請求,拿回一些頁面 json格式資料 request 處理資料,解析出有用的東西 re,bs4 儲存 mysql,檔案,cvs,redis,mongodb,es 分析 cookie池和 池 正向 和反向 正向 自己,反向 伺服器 爬蟲運用模組 requests...