一、引用庫
import requests
二、請求訪問url,網頁相應
res = requests.get(『網頁位址』)
三、表明返回內容
目前返回的response物件有四種屬性:status_code(檢查請求是否成功)、content(將資料轉換為二進位制資料)、text(將資料轉換為字串型資料)、encoding(編碼)
1.status_code:
通常用來確認是否成功爬取**,目前返回值所代表含義如下:
'')#訪問位址
a=res.content #將資料轉換為二進位制資料
photo =
open
('d:/bibidong.png'
,'wb'
)#將二進位制資料儲存至檔案中
photo.write(a)
photo.close(
)到d盤找就能看見剛爬到的
這個顧名思義,就是爬取文字類的資料了
import requests
res = requests.get(
'')a=res.text
print
(a[:
800]
)#只列印爬到的前800個字的內容
最後乙個就是編碼,這個一般只有在亂碼的情況下,對爬取的資料進行編碼。
記錄小白學習python爬蟲的過程(二)
正規表示式 h表示以h開頭,表示任意字元,表示任意多次import re line hello 123 h表示以h開頭,表示任意字元,表示任意多次 re str h.if re.match re str,line print 匹配成功 輸出 匹配成功 表示結尾字元import re line hel...
python爬蟲入門學習記錄
在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了 pip install requests pip install beautifulsoup4 beautifulsoup4使用手冊 簡單的示列 import requests 匯入requests包 url strh...
學習筆記 關於小白學習Python爬蟲的一些筆記
requests與beautifulsoup爬取一些 的經驗 這是第一次寫的爬取 的程式,寫得不夠簡潔有些地方都寫的不是很規範,希望在以後能夠不斷勉勵寫出更好的 也做作為自己以後學習的乙個參考 import requests from bs4 import beautifulsoup import ...