爬蟲學習第二天

全稱網路爬蟲排除標準。

作用：告知網路爬蟲哪些頁面可以爬取，哪些不可以。

形式：在網路根目錄下的robots.txt檔案。

ex.檢視京東**的robots.txt檔案

爬蟲應該自動識別robots.txt檔案，再進行內容爬取。

顯示這個商品的資訊(

import requests
url = ''
try:
r = requests.get(url)
r.raise_for_status()
print(r.text[:1000])
except:
print('爬取失敗')

很遺憾，只能爬取到登入資訊。。。

url(

import requests
url = ''
try:
r = requests.get(url)
r.raise_for_status()
print(r.text[:1000])
except:
print('爬取失敗')

無情，直接爬取失敗

檢視一下status_code,顯示503

再檢視一下user-agent，

可以看到，直接就是python-requests，那麼**完全可以拒絕掉。

那麼能不能模擬成瀏覽器去訪問呢？

在使用get函式時，可以替換掉headers。

import requests
url = ''
try:
kv = 
r = requests.get(url, headers=kv)
r.raise_for_status()
print(r.text[:1000])
except:
print('爬取失敗')

這次執行就成功了，輸出

amazon.cn
if (true === true)  },
ue_furl = "fls-cn.amazon.cn",
ue_mid = "aahkv2x7afylw",

360的關鍵字介面是

import requests
keyword = 'python'
try:
kv = 
r = requests.get('', params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except:
print('爬取失敗')
####
?wd=python
691734

地理網(

爬蟲學習第二天

概念乙個基於網路請求的模組，作用就是模擬瀏覽器發起請求編碼流程制定url 進行請求的傳送獲取響應資料爬取到的資料持久化儲存制定url url 傳送請求,返回值是乙個響應物件 response requests.get url url 獲取相應,text返回的是字串形式的相應資料 pag...

爬蟲第二天

作用網路使用者去取得網路信任 1.突破自身ip限制，去訪問一些不能訪問的站點 2.提高網路速度，服務通過有比較大的硬碟快取區，當外界資訊訪問通過後，將資訊儲存在緩衝區，其他使用者訪問相同資訊，直接在緩衝區拿 3.隱藏真實ip，對於爬蟲來說為了隱藏自身ip，防止自身ip被封鎖爬蟲分類 1.ftp...

爬蟲第二天學習工具

1urllib.request模組方法需要新增cookie和data或者headers時候需要先收集乙個響應物件關鍵字引數因為urlopen 不支援重構 1 urllib.request.urlopen 需要新增cookie和data或者headers時候需要放乙個響應物件 2 respo...

爬蟲學習第二天

爬蟲學習第二天

爬蟲第二天

爬蟲第二天學習工具

相關推薦