爬蟲學習筆記01

固定部分

import requests
base_url =
''headers =
params =
response = requests.
get(base_url, headers = headers, params = params)

第一種

—讀取後顯示為亂碼

—通過檢視網頁原始碼查詢到網頁編碼格式為gbk

—修改編碼格式後，網頁得到正確顯示

第二種

response_str = response.text
with
open
('sina_news1.html'
,'w'
, encoding =
'gbk'
)as fp:
fp.write
(response_str)

1.編碼錯誤

使用gbk編碼有時會出現錯誤，導致執行失敗，

分別對應上述第一種，與第二種

第一種

第二種

解決方法:

response_str = response.content.
decode
('utf-8'
)with
open
('sina_news1.html'
,'w'
, encoding =
'utf-8'
,errors =
'ignore'
)as fp:
fp.write
(response_str)

選擇忽略錯誤：這裡只適用於第二種，因為第一種情況在第一行**就開始解碼

2.拼接url

此方法相較於requests模組更為繁瑣，但是當需要拼接帶中文的url時，

使用parse.urlencode（params）可以直接獲得

python爬蟲筆記01

精通python網路爬蟲筆記下面大部分來自此書，僅為本人筆記 urllib.request的使用以及將爬取內容儲存html檔案示例 import urllib.request url file urllib.request.urlopen url data file.read 讀取全部，賦予...

爬蟲學習記錄 01

在檔案儲存及資料型別中的一些小問題結語python 3.6 使用原生自帶的 urllib 模組進行爬蟲的開始匯入模組urllib的request框架 import urllib.request 使用urlopen方法模擬使用者開啟網頁，以www.baidu.com為例。import urllib...

Python爬蟲學習01

由於自身對python有比較大的興趣，但是畢竟有業務需求才能推動學習在休息的時候看了幾天的基礎，對python的基礎還是可以掌握的，但是一些api的方法確實沒有多大興趣，畢竟乙個乙個api的學習python這種方法，於我而言，確實想睡覺，所以我想以乙個點帶面的學習python，爬蟲是python...

爬蟲學習筆記01

python爬蟲筆記01

爬蟲學習記錄 01

Python爬蟲學習01

相關推薦