import requests #匯入requests模組
1.傳送請求
import requests
r=requests.get('')
2.定製headers
這種情況適用於爬取返回的結果出現「抱歉」「無法訪問」等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態
import requests
r=requests.get("",headers=headers)
print(r.text)
3.定製url引數
from bs4 import beautifulsoup #匯入beautifulsoup模組
import re #匯入re模組
1.爬取網頁的時候使用
eg:
import requests
import re
r=p=
pattern=re.compile('(.*?)')
for i in range(5):#爬取《小王子》前5頁的短評
i=1for item in p:
for item_content in item:
print(str(i)+item_content)
i+=1
2.對檔案中的部分字段進行替代
eg:
import re
with open('taglines.list',encoding='utf-8') as fp:#taglines.list是要匹配的檔名
data = fp.read()
pattern = re.compile('# "(.*?)" \((.*?)\)')#原始欄位為「# "2091" (2016),需要對『(』和『)進行轉義」
p= re.findall(pattern,data)
Python筆記 爬蟲
用到的庫 urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。from urllib import request基本的思路是 用request.urlopen 開啟網頁 url.read decode 得到網頁原始碼...
Python 爬蟲筆記
requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...
python筆記 爬蟲
正規表示式 ref 爬ref 更新了一下 版本,刪去了函式調取。1.urllib re實現 import urllib.request import re url 根據url獲取網頁html內容 page urllib.request.urlopen url html page.read 從html...