注:本文僅是個人的學習筆記,內容**於中國大學mooc《python網路爬蟲與資訊提取》課程
一 京東商品頁面爬取
importrequests
url = "
"try
: r =requests.get(url)
r.raise_for_status()
#檢查訪問資訊的狀態碼,200表示正確
將編碼改為可以顯示的編碼
print(r.text[:1000])
except
:
print("
爬取失敗
")
二 亞馬遜商品頁面的爬取
1 用乙個字典kv儲存需要修改的頭部資訊。
2 獲取頭部資訊:
>>>r.request.headers
3 訪問url時,修改頭部資訊
importrequests
url = "
"try
: kv = #
請求頭 r = requests.get(url,headers = kv) #
將請求頭修改為kv
r.raise_for_status()
print(r.text[:2000])
except
:
print("
爬取失敗
")
字典kv用於儲存需要查詢到keywords
importrequests
try:
kv =
r = requests.get('
',params =kv)
(r.request.url)
r.raise_for_status()
(len(r.text))
except
:
print("
爬蟲失敗
")
四 網路的爬取和儲存
選擇國家地理的一張url作為物件。
importrequests
path = "
d:"#
儲存的路徑
url = "
"r =requests.get(url)
with open(path,'wb
') as f:
f.write(r.content)
#response物件的content屬性:以二進位制的方式寫入檔案
f.close()
**優化:
引入os庫
importrequests
import
osurl = "
"root = "
d://pic//
"path = root + url.split('
/')[-1]#
分割url並以列表形式儲存,取列表最後一位
try:
ifnot os.path.exists(root):#
不存在父目錄就建立
os.mkdir(root)
ifnot os.path.exists(path):#
不存在就爬取檔案並儲存
r =requests.get(url)
with open(path,'wb
') as f:
f.write(r.content)
f.close()
print("
檔案儲存成功")
else
:
print('
檔案已存在')
except
:
print("
爬取失敗
")
五 ip位址自動查詢
importrequests
url = "
"try
: r =requests.get(url)
r.raise_for_status
print(r.text[-5000:])#
抓取ip位址對應網頁的後5000個字元
except
:
print("
爬蟲失敗
")
中國大學MOOC 學習筆記(三)
在學習了嵩天老師的 python網路爬蟲與資訊提取課程 之後,我自己嘗試按照老師的步驟做了乙個小demo。url 如下 import requests from bs4 import beautifulsoup 獲得response物件 defgeturltext url r requests.ge...
我的Python筆記(中國大學MOOC)
使用舉例 cd py 檔案路徑下 pyinstaller i 檔案.ico f 檔案.py 生成的檔案dist中有可執行檔案str str 新字元 陣列形式 str str input str str.lower 分割是split 替換是str.replace 新的,目標 留乙個好的文章 try e...
中國大學MOOC 浙大C語言學習筆記05
7.1 陣列運算 陣列的整合初始化 陣列初始化02 int num0 10 陣列的大小 sizeof給出的整個陣列所佔據的內容的大小,單位是位元組 sizeof a sizeof a 0 sizeof a 0 給出的陣列中單個元素的大小,相除得到了陣列的單元個數 一旦修改 中的初始資料,不需要修改遍...