本人學習《2023年python爬蟲全套課程(學完可做專案)》記錄簡易網路採集器連線*:
if __name__ ==
"__main__"
: headers =
url =
''kw =
input
('輸入乙個單詞');
param =
response = requests.get(url=url,params=param,headers=headers)
page_text = response.text
filename = kw+
'.html'
with
open
(filename,
'w',encoding=
'utf-8'
)as fp:
fp.write(page_text)
print
(filename,
'儲存成功'
)
知識點:
處理url攜帶引數
url = 『?query』
?query-將查詢的字型儲存在param字典中,命名為kw
request.get(url,params,kwargs)
對指定的url發起請求對應的url事攜帶引數的,並且請求過程中處理了引數
url:**的url
params:請求時候的query
response儲存返回響應文字
page_text = response.text
獲取返回文字並命名為page_text
filename = kw+』.html』
with open(filename,『w』,encoding=『utf-8』) as fp:
fp.write(page_text)
檔名為filename,寫入 方式為w,格式為utf-8』,寫入page_text
偽裝瀏覽器
『user-agent』:
1.pose請求(攜帶引數)指定url2.響應資料事一組json資料*
找到資料報內的xhr
進行ua偽裝
post請求引數處理(與get一致)
請求傳送
獲得響應資料:jason()直接返回乙個物件(確認響應資料是json:content-type)
if __name__ ==
"__main__"
: headers =
post_url =
''url =
''word =
input
('輸入乙個單詞'
) data=
filename = word+
'.json'
response = requests.post(url=post_url,data=data,headers=headers)
dic_obj=response.json(
) filename = word+
'.json'
fp =
open
(filename,
'w',encoding=
'utf-8'
) json.dump(dic_obj,fp=fp,ensure_ascii=
false
)print
('over'
)
知識點:
json.dumps將乙個python資料結構轉換為json:
import json
data =
json_str = json.dumps(data)
json.loads將乙個json編碼的字串轉換回乙個python資料結構
data = json.loads(json_str)
```python
with
open
('test.json'
,'w'
)as f:
json.dump(data, f)
with
open
('test.json'
,'r'
)as f:
data = json.load(f)
豆瓣電影(已失效)if __name__ ==
"__main__"
: headers =
url =
''param =
response = requests.get(url=url,params=param,headers=headers)
list_data = response.json(
) fp =
open
('./douban.json'
,'w'
,encoding=
'utf-8'
) json.dump(list_data,fp=fp,ensure_ascii=
false
)print
('over'
)
爬蟲小試第一天
第乙個遇到的問題時編碼的問題 data u5468 u6069 u5e73 print data.encode utf 8 print data.decode utf 8 print data.decode unicode escape print u u5468 u6069 u5e73 輸出的結果...
爬蟲第一天(1)
import urllib2 發請求的模組 base url 定義url 執行urlopen方法,傳入乙個url,返回乙個response物件 response urllib2.urlopen base url,timeout 60 data 有資料傳送是post請求,沒有則是get timeout...
jsoup爬蟲 第一天
org.jsoup jsoup 1.9.2 document doc jsoup.connect url header accept header accept encoding gzip,deflate header accept language zh cn,zh q 0.8,en us q 0...