**請求
**並提取
**資料的 **自動化
**程式
發起請求
獲取響應內容
解析文字內容
儲存資料
1. 瀏覽器傳送資訊給該**所在的伺服器,這個過程叫做http request。
2. 服務收到瀏覽器傳送的訊息後,能夠根據瀏覽器傳送訊息的內容,做相應的處理,然後把訊息回傳給瀏覽器。這個過程叫做http response。
3.瀏覽器收到伺服器的response資訊後,會對資訊進行相應處理,然後展示。
request分為4部分
請求方法
請求的**
請求頭:請求頭,用來說明伺服器要使用的附加資訊,比較重要的資訊有cookie 、referer 、user-agent 等。 下面簡要說明一些常用的頭資訊
請求體:請求體-般承載的內容是post 請求中的表單資料,而對於get 請求,請求體則為空。
響應狀態碼
響應頭:響應頭包含了伺服器對請求的應答資訊,如con tent-type 、server 、set- co oki e 等。
響應體:最重要的當屬響應體的內容了。響應的正文資料都在響應體中,比如請求網頁時,它的響應體就 是網頁的html **; 請求一張時, 它的響應體就是的二進位制資料。我們做爬蟲請求網頁後, 要解析的內容就是響應體
網頁文字
:如html、json格式文字
:獲取到的是二進位制檔案,儲存為格式
其他
:只要是能請求到的,都能獲取
直接處理
json解析
正規表示式
beautiful soup
pyquery
xpath
分享ajax請求import requests
response = requests.get(
(response.status_code)
with
open
('res.txt'
,'w'
,encoding=
'utf-8'
)as f:
f.write(response.text)
f.close(
)# 輸入鏈結,拿到的只是瀏覽器資料中的第乙個,而其他的資料是通過js發ajax請求得到的資料,再對dom進行從新渲染。才是看到的網頁資料。
selenium/webdriver驅動乙個瀏覽器模擬載入網頁
splash
pyv8、ghost.py
文字,純文字、json、xml
關係型資料庫
非關係型資料庫
python3爬蟲學習筆記
爬蟲爬取京東某手機頁面 beautifulsoup 原文記錄內容太多現進行摘錄和分類 pip3 install jieba kou ubuntu python cat clahamlet.py usr bin env python coding utf 8 e10.1calhamlet.py def...
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...
python3 爬蟲入門
這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...